ANSJ中文分词使用方法
一、前言
之前做solr索引的时候就使用了ANSJ进行中文分词,用着挺好,然而当时没有写博客记录的习惯。最近又尝试了好几种JAVA下的中文分词库,个人感觉还是ANSJ好用,在这里简单总结之。
二、什么是中文分词
百度百科对其定义如下:
中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道,在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不过在词这一层上,中文比之英文要复杂的多、困难的多。
简单说来。比如说小明和服务生小黄相爱了,这句简单的话我们一看就明白,这说的是两个人打架了,但是对于计算机来说他根本不明白你在说什么,即使你将中文所有词语库告诉电脑,它也不知道到底是小明和小黄的爱情故事还是小明和和服诱惑的故事。这就是中文分词。
关于中文分词的深层理论等,我就不在此讲述了,我本身也对此块理论没有深入的领会,直接来讲述ANSJ的使用。
三、ANSJ中文分词
3.1 ANSJ简介
其Github地址为https://github.com/NLPchina/ansj_seg。其中有对其简单介绍:
这是一个基于n-Gram+CRF+HMM的中文分词的java实现.
分词速度达到每秒钟大约200万字左右(mac air下测试),准确率能达到96%以上
目前实现了.中文分词. 中文姓名识别 . 用户自定义词典,关键字提取,自动摘要,关键字标记等功能
可以应用到自然语言处理等方面,适用于对分词效果要求高的各种项目.
3.2 ANSJ安装
最简单的方式是下载jar包,直接导入项目中,在Github上都有详细介绍。在这里需要说明的是请下载其各种词库(library文件夹),然后直接将该文件夹拷贝到项目的根目录下。这样项目启动的时候就会自动加载词库。https://github.com/NLPchina/ansj_seg/wiki/在上述项目WIKI中也详细讲述了ANSJ的理论及使用方法等。
3.3 ANSJ使用
- 分词方式
ANSJ提供了多种分词方式,如下:
System.out.println("BASE");
System.out.println(BaseAnalysis.parse(str));
System.out.println("TO");
System.out.println(ToAnalysis.parse(str));
System.out.println("DIC");
System.out.println(DicAnalysis.parse(str));
System.out.println("INDEX");
System.out.println(IndexAnalysis.parse(str));
System.out.println("NLP");
System.out.println(NlpAnalysis.parse(str));
在https://github.com/NLPchina/ansj_seg/wiki/%E5%88%86%E8%AF%8D%E6%96%B9%E5%BC%8F中详细介绍了以上几种分词方式。我对比了ANSJ提供的上述几种分词方式,发现ToAnalysis的方式最好,速度最快,分词效果也很好,所以建议大家直接使用此种分词方式,当然如果你有其他特殊需求也可以测试另外几种分词方式。
当然我在这里要讲述的是词典部分。如果你的业务逻辑很清楚,如某个词语在你的系统中是特殊含义,那么你可以直接将其加到ambiguity.dic文件中。格式如下:
邓颖超 nr 生前 t
习大大 nr
即碰到“习大大”或“邓颖超生前”的时候都按照这种方式进行分词,并且该词的属性就为后面的字母。但是实际中我发现如果default.dic中有此词,ambiguity.dic再添加的话会不起作用,将default.dic中的该词删除即可。
当然如果业务逻辑不是那么明确,也可以在default.dic中添加分词规则,方式如下:
重要 a 37557
此处每行只能添加一个词,第一个为词语,第二个为该词的属性,第三个表示权重,即权重越大,越有可能按照此种方式进行分词。
- 关键词提取
使用方式如下:
System.out.println("关键词提取");
KeyWordComputer kwc = new KeyWordComputer(5);
Collection<Keyword> result = kwc.computeArticleTfidf(str);
System.out.println(result);
或者如WIKI中给出标题:
KeyWordComputer kwc = new KeyWordComputer(5);
String title = "维基解密否认斯诺登接受委内瑞拉庇护";
String content = "有俄罗斯国会议员,9号在社交网站推特表示,美国中情局前雇员斯诺登,已经接受委内瑞拉的庇护,不过推文在发布几分钟后随即删除。俄罗斯当局拒绝发表评论,而一直协助斯诺登的维基解密否认他将投靠委内瑞拉。 俄罗斯国会国际事务委员会主席普什科夫,在个人推特率先披露斯诺登已接受委内瑞拉的庇护建议,令外界以为斯诺登的动向终于有新进展。 不过推文在几分钟内旋即被删除,普什科夫澄清他是看到俄罗斯国营电视台的新闻才这样说,而电视台已经作出否认,称普什科夫是误解了新闻内容。 委内瑞拉驻莫斯科大使馆、俄罗斯总统府发言人、以及外交部都拒绝发表评论。而维基解密就否认斯诺登已正式接受委内瑞拉的庇护,说会在适当时间公布有关决定。 斯诺登相信目前还在莫斯科谢列梅捷沃机场,已滞留两个多星期。他早前向约20个国家提交庇护申请,委内瑞拉、尼加拉瓜和玻利维亚,先后表示答应,不过斯诺登还没作出决定。 而另一场外交风波,玻利维亚总统莫拉莱斯的专机上星期被欧洲多国以怀疑斯诺登在机上为由拒绝过境事件,涉事国家之一的西班牙突然转口风,外长马加略]号表示愿意就任何误解致歉,但强调当时当局没有关闭领空或不许专机降落。";
Collection<Keyword> result = kwc.computeArticleTfidf(title, content);
System.out.println(result);
实际测试两种方式都能达到很好的提取关键词效果,如果有做关键词云的需求可以考虑。
- 自定义分词规则
如果有提取邮箱等分词规则,可以自定义一个Recognition继承Recognition即可。方式如下:
public class RdzaRecognition implements Recognition {
private static final long serialVersionUID = -32133440735240290L;
private static final Nature NATURE = new Nature("rdza");
@Override
public void recognition(Result result) {
List<Term> terms = result.getTerms();
for (Term term : terms) {
String regExp = "rd[z|a]a";
Pattern p = Pattern.compile(regExp);
Matcher m = p.matcher(term.getName());
if (m.matches()) {
term.setNature(NATURE);
}
}
for (Iterator<Term> iterator = terms.iterator(); iterator.hasNext(); ) {
Term term = iterator.next();
if (term.getName() == null) {
iterator.remove();
}
}
}
}
其实现的是将rdza或者rdaa设置为rdaa属性。实现起来很简单,主要是正则表达式,需要自定义匹配规则即可。
调用方式如下:
ToAnalysis.parse(str).recognition(new RdzaRecognition());
即将默认分词的结果再使用上述规则进行分词。
四、总结
本文简单介绍了ANSJ中文分词的使用方法,以后有更详细的使用经验,会直接补充到这里。分享是一种美德。
ANSJ中文分词使用方法的更多相关文章
- Solr整合Ansj中文分词器
Ansj的使用和相关资料下载参考:http://iamyida.iteye.com/blog/2220833 参考 http://www.cnblogs.com/luxh/p/5016894.html ...
- R语言︱文本挖掘之中文分词包——Rwordseg包(原理、功能、详解)
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 笔者寄语:与前面的RsowballC分词不同的 ...
- 推荐十款java开源中文分词组件
1:Elasticsearch的开源中文分词器 IK Analysis(Star:2471) IK中文分词器在Elasticsearch上的使用.原生IK中文分词是从文件系统中读取词典,es-ik本身 ...
- elasticsearch教程--中文分词器作用和使用
概述 本文都是基于elasticsearch安装教程 中的elasticsearch安装目录(/opt/environment/elasticsearch-6.4.0)为范例 环境准备 ·全新最小 ...
- 中文分词实践(基于R语言)
背景:分析用户在世界杯期间讨论最多的话题. 思路:把用户关于世界杯的帖子拉下来.然后做中文分词+词频统计,最后将统计结果简单做个标签云.效果例如以下: 兴许:中文分词是中文信息处理的基础.分词之后.事 ...
- 11大Java开源中文分词器的使用方法和分词效果对比
本文的目标有两个: 1.学会使用11大Java开源中文分词器 2.对比分析11大Java开源中文分词器的分词效果 本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码,至于效果哪个好,那 ...
- 开源中文分词工具探析(三):Ansj
Ansj是由孙健(ansjsun)开源的一个中文分词器,为ICTLAS的Java版本,也采用了Bigram + HMM分词模型(可参考我之前写的文章):在Bigram分词的基础上,识别未登录词,以提高 ...
- 11大Java开源中文分词器的使用方法和分词效果对比,当前几个主要的Lucene中文分词器的比较
本文的目标有两个: 1.学会使用11大Java开源中文分词器 2.对比分析11大Java开源中文分词器的分词效果 本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码,至于效果哪个好,那 ...
- NLPIR(北理工张华平版中文分词系统)的SDK(C++)调用方法
一.本文内容简介 二.具体内容 1. 中文分词的基本概念 2.关于NLPIR(北理工张华平版中文分词系统)的基本情况 3.具体SDK模块(C++)的组装方式 ①准备内容: ②开始组装 三.注意事项 一 ...
随机推荐
- 日期格式化,moment.js
官方文档:http://momentjs.com/; 使用方法:moment(data).format("YYYY-MM-DD");//data为日期的字符串形式 moment() ...
- iOS 历史浏览网页的定向跳转
在实际的开发过程中,涉及到交互的问题,原生和H5的网页相互嵌套,直接造成跳转的混乱,混乱就应该指定的历史记录中,就需要网页的一些相关的一些属性问题 需要在webview里面的代理方法中执行相对应的操作 ...
- inux的进程-进程的概念和fork创建进程
一. 什么是进程? 初学者,可能认为程序或者一段代码就是一个进程.其实这样说是很不全面的,进程简单的说就是一个个条件. 1.需要一个代码 2.需要运行这个代码环境和资源 从下面的一段代码,我们来分析 ...
- 20155215 2016-2017-2 《Java程序设计》第5周学习总结
学号 2006-2007-2 <Java程序设计>第5周学习总结 教材学习内容总结 第八章 尝试捕捉错误对象,try,catch. 如何抛出错误对象,throw语法. error代表系统错 ...
- Angularjs 实现移动端在线测评效果
注:此文所用的angular版本为 1.6 一.运行效果图 二.需求 1. 点击选项时,背景变为黄色(即选中状态),并且自动切换到下一题 2. 切换到下一题时,顶部进度随之改变 3. 选中时要把对应的 ...
- Redis基础学习(一)—Redis的安装
一.Redis的安装 1.在Linux环境下安装gcc环境 yum install gcc-c++ 2.解压缩Redis源码包 tar -zxf redis-3.0.0.tar.gz 3.编译 ...
- jenkins容器权限被被拒绝
问题,我们从官网上面pull下jenkins后,如果直接运行容器的没问题 docker run -d -p 8080:8080 -v jenkins:latest 不过我们可能需要映射下容器内部的地址 ...
- 基于WebForm和Bootstrap的权限框架解决方案 一.PQGRID的使用
天天打游戏也不是个事,就写一套权限框架吧,我的要求是即漂亮美观大方上档次,又要实用易用接地气. 按理来说应该先设计数据库在来秀的,但是人生就是这么随意,先搭个框子吧, 这一篇的重点是pqgrid的介绍 ...
- android通过代码获取华为手机的EMUI系统版本号
因为app中用到华为推送,但是华为推送在不同版本上是存在不同问题的,需要单独来处理. 那么最基本的问题是要获取EMUI系统的版本号. 上网翻了很多博客帖子,基本上是在获取root权限下去读取/syst ...
- CSS选择器渲染效率
1 浏览器如何识别你的选择器 首先我们需要清楚,浏览器是如何读取选择器,以识别样式,并将相应的样式附于对应的HTML元素,达到美化页面的效果.Chris Coyier曾在<Efficiently ...