这篇文章上次修改于 3412 天前,可能其部分内容已经发生变化,如有疑问可询问作者。
coreseek本身自带的词库有限,需要扩展。下面说一下扩展的步骤:
1.去搜狗拼音下载常用词库: http://pinyin.sogou.com/dict/
2.使用imewlconverter_1_3_1将获得的词库转为txt文档保存.
3.将txt转为utf8编码,写脚本将文件转为mmseg词典txt,这里给出一个php脚本的示例:
<?php
@unlink('dict.txt');
$handle= fopen('new.txt','r');
$w = fopen('dict.txt','a+');
if ($handle && $w) {
while (($buffer = fgets($handle, 4096)) !== false) {
$line = trim($buffer,"\r\n\t ");
fwrite($w,"$line\t1\r\nx:1\r\n");
}
if (!feof($handle)) {
echo "Error: unexpected fgets() fail\n";
}
fclose($handle);
fclose($w);
}
?>
4.使用如下命令将txt文件转为mmseg运行所需的lib词典.
/usr/local/mmseg3/bin/mmseg -u /usr/local/mmseg3/etc/dict.txt
mkdir backup
mv uni.lib backup/
mv dict.txt.uni uni.lib
没有评论