中文分词组件：thulac及jieba试用手记

一、THULAC

THULAC由《清华大学自然语言处理与社会人文计算实验室》研制推出的一套中文词法分析工具包。
官网地址：http://thulac.thunlp.org，该项目提供了多种语言，本文以java版为例，先下载以下二个组件：
1、THULAC_lite_v1_2分词java版可执行的jar包：THULAC_lite_java_v1_2_run.jar
2、THULAC模型，包括分词模型和词性标注模型（v1_2）: Models_v1_v2(v1_2).zip
把THULAC模型解压到与jar文件相同的目录下，默认会生成models目录。

然后创建一个input.txt做为输入，这里选择了一首歌词：

郁可唯-茶汤

词曲：方文山

山岚像茶杯上的云烟

颜色越来越浅

你越走越远

有好多的话还来不及兑现，你就不见

我身后窗外那片梯田

像一段段从前

我站在茶园，抬头望着天，想象你会在山的，那一边

我说再喝一碗我熬的茶汤

你说你现在马上要渡江

渡江到那遥远的寒冷北方

就怕你的手会冻僵

你何时回来喝我熬的茶汤

这次我会多放一些老姜

你寄来的信一直搁在桌上

不知要寄还哪地方

北风它经过多少村落

来来回回绕过

分不清那年，我求天保佑，只见风声大做，却更寂寞

使用方法：

java -jar THULAC_lite_java_v1_2_run.jar -seg_only  -input input.txt -output output.txt

上面表示，将从input.txt做为输入，然后仅分词（不做词性标注)，并将结果生成到output.txt(如果这个文件没生成，会自动创建)　

输出结果：

郁可唯 - 茶 汤

词曲 ： 方文山

山岚 像 茶杯 上 的 云烟

颜色 越来越 浅

...

北风 它 经过 多少 村落

来来回 回绕 过

分 不 清 那年 ， 我 求 天 保佑 ， 只见 风声 大 做 ， 却 更 寂寞

　其它一些通用的参数：

####1.2.通用参数

	-t2s			    将句子从繁体转化为简体

	-seg_only		    只进行分词，不进行词性标注

	-deli delimeter		设置词与词性间的分隔符，默认为下划线_

	-filter				使用过滤器去除一些没有意义的词语，例如“可以”。

	-user userword.txt	设置用户词典，用户词典中的词会被打上uw标签。词典中每一个词一行，UTF8编码(python版暂无)

	-model_dir dir		设置模型文件所在文件夹，默认为models/

####1.3.Java版特有的参数

	-input input_file	设置从文件读入，默认为命令行输入

	-output output_file	设置输出到文件中，默认为命令行输出

比较有用的参数：-user userword.txt，可以创建自定义词典，比如象上面的歌词，“茶汤”、“来来回回”、“分不清” 这三个词，都拆成了：

茶 汤

来来回 回绕 过

分 不 清 那年

如果希望这3个词不分，可以创建一个userword.txt的文件，类似下面这样：

茶汤

来来回回

绕过

分不清

风声大做

然后加上-user userword.txt，输出结果会有变化：

郁可唯 - 茶汤

...

来来回 回绕 过

分不清 那年 ， 我 求 天 保佑 ， 只见 风声大做 ， 却 更 寂寞

“茶汤”，“分不清”这二个词，已经按预期正确识别了，但是“来来回回”却并没有。　

二、jieba分词组件

官网地址：https://github.com/fxsjy/jieba

这里我们使用python版本(java版本的功能比较弱)，pip3 install jieba后，可以参考如下使用方法：

python3 -m jieba -u /Users/yangjunming/Downloads/thulac/userword.txt -d ' ' /Users/yangjunming/Downloads/thulac/input.txt > /Users/yangjunming/Downloads/thulac/jieba_output.txt

　解释一下：

-u 表示使用自定义词典

-d ' ' 表示分词的间隔符，使用空格（默认是/)

结果如下：（左侧的是thulac的输出，右侧的是jieba的输出)　

个人感觉：默认情况下，jieba分词的颗粒度要粗一些，而thulac则分得太细（但对于一些人名，thulac识别要好一些）

中文分词组件：thulac及jieba试用手记的更多相关文章

.NET Core中文分词组件jieba.NET Core
.NET Core中文分词组件jieba.NET Core,由于实际的一些需求,需要做中文分词. 找到了一个jieba.NET https://github.com/anderscui/jieba.N ...
python安装Jieba中文分词组件并测试
python安装Jieba中文分词组件 1.下载http://pypi.python.org/pypi/jieba/ 2.解压到解压到python目录下: 3.“win+R”进入cmd:依次输入如下代 ...
Python中文分词组件 jieba
jieba "结巴"中文分词:做最好的Python中文分词组件 "Jieba" Feature 支持三种分词模式: 精确模式,试图将句子最精确地切开,适合文本分 ...
推荐十款java开源中文分词组件
1:Elasticsearch的开源中文分词器 IK Analysis(Star:2471) IK中文分词器在Elasticsearch上的使用.原生IK中文分词是从文件系统中读取词典,es-ik本身 ...
全文检索引擎Solr系列——整合中文分词组件mmseg4j
默认Solr提供的分词组件对中文的支持是不友好的,比如:“VIM比作是编辑器之神”这个句子在索引的的时候,选择FieldType为”text_general”作为分词依据时,分词效果是: 它把每一个词 ...
全文检索引擎Solr系列——整合中文分词组件IKAnalyzer
IK Analyzer是一款结合了词典和文法分析算法的中文分词组件,基于字符串匹配,支持用户词典扩展定义,支持细粒度和智能切分,比如: 张三说的确实在理智能分词的结果是: 张三 | 说的 | 确实 ...
中文分词中的战斗机-jieba库
英文分词的第三方库NLTK不错,中文分词工具也有很多(盘古分词.Yaha分词.Jieba分词等).但是从加载自定义字典.多线程.自动匹配新词等方面来看. 大jieba确实是中文分词中的战斗机. 请随意 ...
python基础===jieba模块，Python 中文分词组件
api参考地址:https://github.com/fxsjy/jieba/blob/master/README.md 安装自行百度基本用法: import jieba #全模式 word = j ...
Solr整合中文分词组件IKAnalyzer
我用的Solr是4.10版本, 在csdn下载这个版本的IKAnalyzer:IK Analyzer 2012FF_hf1.zip 解压后目录如下: (1)这里还用solr自带的example实验分词 ...

随机推荐

Android通讯：通话
Android通讯之通话功能的实现: 在Android中,android.telephony.TelephonyManager对象是开发者获取当前通话网络相关信息的窗口,通过TelephonyMana ...
javascript判断是用什么设备打开
var userAgentInfo = navigator.userAgent //查看浏览器用于 HTTP 请求的用户代理头的值 var agents = ["Android", ...
有关Math数学运算的js函数
随机函数; Moth.random() //3.以下通过循环给数组每个元素赋值,随机数. // Math.random(); 可以随机0~1之间的任意数 [0,1) // alert(Math. ...
使用siege执行压力测试
没有安装siege? 可参考我的另一篇博客使用siege执行压力测试笔记场景分析使用siege对https://www.baidu.com/进行加压. 要求模拟20个用户同时访问一共跑3个循 ...
步步为营-21-xml的增删改查
1 增加(存在则添加,不存在则新建) //对xml的操作-- XmlDocument doc = new XmlDocument(); if (File.Exists("Person.xml ...
LINQ学习之旅（三）
Linq to Sql语句之Join和Order By Join操作适用场景:在我们表关系中有一对一关系,一对多关系,多对多关系等.对各个表之间的关系,就用这些实现对多个表的操作. 说明:在Join ...
js获取按键
event.altKey.event.ctrlKey.event.shiftKey 属性属性为true表示事件发生时Alt.Ctrl.Shift键被按下并保持,为false则Alt.Ctrl.Shi ...
Linux学习之ACL权限详解(十)
Linux系统ACL权限详解目录 ACL权限简介与开启查看与设定ACL权限最大有效权限与删除ACL权限默认ACL权限和递归ACL权限 ACL权限简介与开启权限 ACL权限简介用户权限管理始终 ...
P1510 精卫填海
P1510 精卫填海二分答案二分背包容量,判断能否满足v.判断的话就跑01背包就好了. #include<iostream> #include<cstdio> #include ...
RabbitMQ 初学及其深入学习推荐的一些文章
记录一下学习RabbitMQ过程中,收获比较大的一些文章: 什么都别说,先把这6个Demo 玩一遍 https://www.rabbitmq.com/getstarted.html 大佬1号 http ...

中文分词组件：thulac及jieba试用手记

中文分词组件：thulac及jieba试用手记的更多相关文章

随机推荐

热门专题