中科院nlpir和海量分词(http://www.hylanda.com/)是收费的. hanlp:推荐基于CRF的模型的实现~~要看语料,很多常用词会被分错,所以需要词库支撑.目前最友好的开源工具包应该是HanLP,基于词典,对各种实体词汇做了HMM,也提供了CRF模型.工程实现也不错,性能不是瓶颈.代码有相对完备的注释,文档也比较全,各种算法原理实现也有对应blog,自己研究和做二次开发都比较方便. 最近写了一款分词器,调研了不少文章的开源实现.最终定的方案是 Language Model…
from:http://blog.csdn.net/xmu_jupiter/article/details/46830327 这几天快被Python的一些细节问题整死了,浪费了不少时间.现在把这些记录下来,让遇到同样问题的朋友少走弯路. Windows下用Python使用libsvm库的时候,按照主流的方法(可以点击这里)安装配置,没有问题.但是,一旦不是在命令行而是在Python脚本中使用libsvm的时候,编会报错:"ImportError: No module named svmutil&…