这篇文章上次修改于 3412 天前,可能其部分内容已经发生变化,如有疑问可询问作者。

coreseek本身自带的词库有限,需要扩展。下面说一下扩展的步骤:

1.去搜狗拼音下载常用词库:  http://pinyin.sogou.com/dict/

2.使用imewlconverter_1_3_1将获得的词库转为txt文档保存.

 

 3.将txt转为utf8编码,写脚本将文件转为mmseg词典txt,这里给出一个php脚本的示例:

<?php
@unlink('dict.txt');
$handle= fopen('new.txt','r');
$w = fopen('dict.txt','a+');
if ($handle && $w) {
    while (($buffer = fgets($handle, 4096)) !== false) {
    $line = trim($buffer,"\r\n\t ");
        fwrite($w,"$line\t1\r\nx:1\r\n");
    
    }
    if (!feof($handle)) {
        echo "Error: unexpected fgets() fail\n";
    }
    fclose($handle);
    fclose($w);
}

?>

4.使用如下命令将txt文件转为mmseg运行所需的lib词典.

/usr/local/mmseg3/bin/mmseg -u /usr/local/mmseg3/etc/dict.txt
mkdir backup
mv uni.lib backup/
mv dict.txt.uni uni.lib