存档

文章标签 ‘mmseg’

脚本转换scel格式词库成txt格式

2013年8月8日 2 条评论

最近一个小项目搜索功能采用了Sphinx作为搜索引擎,结合mmseg中文分词效果不错,有兴趣的朋友可以试一下.另外国内已经有专门针对中文分词进行优化整合的项目coreseek,基于Sphinx和mmseg,就是版本稍微低了点,免费版基于Sphinx 0.9.9 release,对于新特性要求不高的同学可以试试

Sphinx搜索结果匹配效果与分词有比较大的关系,理论上词库越大匹配精度越高,可惜网上能找到的mmseg格式词库真心不多,自己一个个收集整理也不大现实.coreseek自带的中文词库大概有10万条的样子,试了一下只能说差强人意,很多专业词汇还有一些网络新名词基本上没有收录,也难怪估计很久没有更新了.

还好让我终找到了搜狗输入法的搜狗细胞词库,词库是按专业分门另类进行整理的,而且还支持用户上传自定义词库.可惜都是scel格式的,而mmseg提供的词库生成工具只支持txt格式的,不能直接使用.

万能的github竟然让我找到了scel转换为txt格式的工具,果断fork下来,稍做修改一个完整的思路出来了:搜狗细胞词库>>txt>>mmseg词库

fork下来的脚本修改后支持批量转换为单个词库,Python写的简单脚本

脚本地址:https://github.com/aboutstudy/scel2mmseg

附赠个本人整理的词库,收录近100万词汇:收录100中文词条的mmseg格式词库