本文为本人学习pyhanlp的笔记,大多知识点来源于GitHubhttps://github.com/hankcs/HanLP/blob/master/README.md,文中的demo代码来源于该GitHub主 what's the pyhanlp pyhanlp是HanLP的Python接口,支持自动下载与升级HanLP,兼容py2.py3. 安装 pip install pyhanlp 安装时可能遇到的问题: 报错:error: Microsoft Visual C++ 14.0 is r
中科院nlpir和海量分词(http://www.hylanda.com/)是收费的. hanlp:推荐基于CRF的模型的实现~~要看语料,很多常用词会被分错,所以需要词库支撑.目前最友好的开源工具包应该是HanLP,基于词典,对各种实体词汇做了HMM,也提供了CRF模型.工程实现也不错,性能不是瓶颈.代码有相对完备的注释,文档也比较全,各种算法原理实现也有对应blog,自己研究和做二次开发都比较方便. 最近写了一款分词器,调研了不少文章的开源实现.最终定的方案是 Language Model