IKAnalyzer结合Lucene实现中文分词

1、基本介绍

　　随着分词在信息检索领域应用的越来越广泛，分词这门技术对大家并不陌生。对于英文分词处理相对简单，经过拆分单词、排斥停止词、提取词干的过程基本就能实现英文分词，单对于中文分词而言，由于语义的复杂导致分词并没英文分词那么简单，一般都是通过相关的分词工具来实现，目前比较常用的有庖丁分词以及IKAnalyzer等。这里我们主要通过一个简单的Demo聊聊IKAnalyzer的基本使用。IKAnalyzer是一个开源的，基于java开发的分词工具包，它独立于Lucene项目，同时提供了Lucene的默认实现。

2、IKAnalyzer结合Lucene实现简单的中文分词

　　我们通过一个基本的Demo来实践说明，步骤如下：

step1：准备相关的Jar依赖，lucene-core-5.1.0.jar、ik.jar，然后新建项目，引入相关依赖项目结构如下：

IkDemo-src

　　　　　-con.funnyboy.ik

-IKAnalyzer.cfg.xml

　　　　　-stopword.dic

-ext.dic

-Reference Libraries

　　　　　-lucene-core-5.1.0.jar

　　　　　-ik.jar

IKAnalyzer.cfg.xml：配置扩展词典以及停止词典内容如下：

<?xml version="1.0" encoding="UTF-8"?>

<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">

<properties> <comment>IK Analyzer 扩展配置</comment>

　　<entry key="ext_stopwords">stopword.dic;</entry>

</properties>

其中的ext.dic配置自己的扩展字典，stopword.dic配置自己的扩展停止词字典

step2：通过java代码验证测试

public class MyIkTest {

　　public static String str = "中国人民银行我是中国人";

　　public static void main(String[] args) {

　　　　 MyIkTest test = new MyIkTest();

　　　　 test.wordCount("", str);

　　 }

　　private void wordCount(String arg,String content) {

　　　 Analyzer analyzer = new IKAnalyzer(true); // IK实现分词 true:用最大词长分词 false:最细粒度切分

　　　　StringReader reader = null;

　　　　TokenStream ts = null; try {

　　　　　　reader = new StringReader(content);

　　　　　　ts = analyzer.tokenStream(arg,reader);

　　　　　　CharTermAttribute term = ts.addAttribute(CharTermAttribute.class);

　　　　　　ts.reset();

　　　　　　Map<String, Integer> map = new HashMap<String, Integer>(); //统计

　　　　　　while (ts.incrementToken()) {

　　　　　　　　String str = term.toString();

　　　　　　　　Object o = map.get(str);

　　　　　　　　if (o == null) {

　　　　　　　　　　map.put(str, new Integer(1));

　　　　　　　　 } else {

　　　　　　　　　　Integer i = new Integer(((Integer) o).intValue() + 1);

　　　　　　　　　　 map.put(str, i);

　　　　　　　　}

　　　　　　List<Entry<String, Integer>> list = new ArrayList<Entry<String, Integer>>(map.entrySet());

　　　　　　Collections.sort(list,new Comparator<Map.Entry<String, Integer>>() {

　　　　　　　　public int compare(Map.Entry<String, Integer> o1,Map.Entry<String, Integer> o2) {

　　　　　　　　　　return (o2.getValue() - o1.getValue());

　　　　　　　　} });

　　　　　　 for (int k=0;k<list.size();k++) {

　　　　　　　　Entry<String, Integer> it=list.get(k);

　　　　　　　　String word = it.getKey().toString();

　　　　　　　　System.err.println(word+"["+it.getValue()+"]");

　　　　　　　}

　　　　} catch (Exception e) {

　　　 } finally {

　　　　　　if(reader != null){

　　　　　　　　 reader.close();

　　　　　　}

　　　　　　if (analyzer != null) {

　　　　　　　　analyzer.close();

　　　　　　}

执行程序测试结果如下：

中国人民银行[1]

中国人[1]

我[1]

3、配置说明

a、如何自定义配置扩展词典和停止词典 IKAnalyzer.cfg.xml中定义了扩展词典和停止词典，如果有多好个可以通过;配置多个。扩展词典是指用户可以根据自己定义的词义实现分词，比如人名在默认的词典中并未实现，需要自定义实现分词，卡可以通过在ext.dic中新增自定义的词语。停止词是指对于分词没有实际意义但出现频率很高的词，比如吗、乎等语气词，用户也可以通过在stopword.dic中自定义相关的停止词。

b、关于最大词长分词和最小粒度分词的区分在IKAnalyzer构造方法中可以通过提供一个标示来实现最大词长分词和最小粒度分词，true为最大词长分词，默认是最小粒度分词。对"中国人民银行我是中国人"分别测试结果如下：

最大词长分词结果如下：

中国人民银行[1]

中国人[1]

我[1]

最小粒度分词结果如下：
国人[2]
中国人[2]
中国[2]
人民[1]
中国人民银行[1]
我[1]
人民银行[1]
中国人民[1]
银行[1]

IKAnalyzer结合Lucene实现中文分词的更多相关文章

Lucene的中文分词器IKAnalyzer
分词器对英文的支持是非常好的. 一般分词经过的流程: 1)切分关键词 2)去除停用词 3)把英文单词转为小写但是老外写的分词器对中文分词一般都是单字分词,分词的效果不好. 国人林良益写的IK Ana ...
Lucene的中文分词器
1 什么是中文分词器学过英文的都知道,英文是以单词为单位的,单词与单词之间以空格或者逗号句号隔开. 而中文的语义比较特殊,很难像英文那样,一个汉字一个汉字来划分. 所以需要一个能自动识别中文语义的分 ...
（转）全文检索技术学习(三)——Lucene支持中文分词
http://blog.csdn.net/yerenyuan_pku/article/details/72591778 分析器(Analyzer)的执行过程如下图是语汇单元的生成过程: 从一个Re ...
lucene之中文分词及其高亮显示(五)
中文分词:即换个分词器 Analyzer analyzer = new StandardAnalyzer();// 标准分词器换成 SmartChineseAnalyzer analyze ...
Lucene整理--中文分词
版权声明:本文为博主原创文章,未经博主同意不得转载. https://blog.csdn.net/hai_cheng001/article/details/37511379 看lucene主页(htt ...
lucene之中文分词及其高亮显示
参考:http://www.cnblogs.com/lirenzhujiu/p/5914174.html http://www.cnblogs.com/xing901022/p/3933675.htm ...
Lucene系列四：Lucene提供的分词器、IKAnalyze中文分词器集成、扩展 IKAnalyzer的停用词和新词
一.Lucene提供的分词器StandardAnalyzer和SmartChineseAnalyzer 1.新建一个测试Lucene提供的分词器的maven项目LuceneAnalyzer 2. 在p ...
Apache Solr 初级教程（介绍、安装部署、Java接口、中文分词）
Python爬虫视频教程零基础小白到scrapy爬虫高手-轻松入门 https://item.taobao.com/item.htm?spm=a1z38n.10677092.0.0.482434a6E ...
Lucene学习——IKAnalyzer中文分词
一.环境 1.平台:MyEclipse8.5/JDK1.5 2.开源框架:Lucene3.6.1/IKAnalyzer2012 3.目的:测试IKAnalyzer的分词效果二.开发调试 1.下载框架 ...

随机推荐

Django学习之十二：Cache 缓存组件
目录 Django Cache 缓存组件缓存逻辑伪代码配置缓存源可配置参数说明 01. Django的默认缓存 02. 基于Redis的django-redis 03. 自定义cache 04. ...
DataPipeline | PayPal庞姬桦：大数据在小微企业贷款上的运用
庞姬桦女士毕业于北京大学和美国哥伦比亚大学,目前担任PayPal公司消费者风险管理总监,负责通过大数据实现对互联网金融风险的侦测.跟踪.管控和防范.在加入PayPal之前,曾任职于渣打银行(中国)和美 ...
总结Java常用到的六个加密技术和代码
加密,是以某种特殊的算法改变原有的信息数据,使得未授权的用户即使获得了已加密的信息,但因不知解密的方法,仍然无法了解信息的内容.大体上分为双向加密和单向加密,而双向加密又分为对称加密和非对称加密(有些 ...
webpack4打包nodejs项目进阶版——多页应用模板
前段时间我写了个打包nodejs项目的文章,点击前往但是,问题很多.因为之前的项目是个历史遗留项目,重构起来可能会爆炸,当时又比较急所以就写个的适用范围很小的webpack的打包方法. 最近稍微得空 ...
第1章程序设计和C语言
1.1什么是计算机程序程序,就是一组计算机能识别和执行的指令.每一条指令使计算机执行特定的操作.只要让计算机执行这个程序,计算机就会“自动地”执行各条指令,有条不紊地进行工作. 1.2什么是计算机语 ...
Microsoft Power BI 学习笔记
Power Bi 学习笔记一 Power BI 是微软发布的一系列的软件服务.应用和连接器,这些软件服务.应用和连接器协同工作,将不相关的数据源转化为合乎逻辑.视觉上逼真的交互式见解. ...
Python爬虫入门教程 42-100 爬取儿歌多多APP数据-手机APP爬虫部分
1. 儿歌多多APP简单分析今天是手机APP数据爬取的第一篇案例博客,我找到了一个儿歌多多APP,没有加固,没有加壳,没有加密参数,对新手来说,比较友好,咱就拿它练练手,熟悉一下Fiddler和夜神 ...
Linux用户和权限管理看了你就会用啦
前言只有光头才能变强回顾前面: 看完这篇Linux基本的操作就会了没想到上一篇能在知乎获得千赞呀,Linux也快期末考试了,也有半个月没有写文章了.这篇主要将Linux下的用户和权限知识点再整理 ...
【转载】假设有以下代码 String s = “hello”; 阿里巴巴笔试题
原文链接点这里 equals 源码如下: 分析: //true equal用于比较两个对象的值是否相同,和内存地址无关
DSAPI.网络.网卡信息属性表
DSAPI.网络.网卡信息属性表其中,带有ReadOnly的属性只可读不可改,不带ReadOnly的属性即可读也可直接修改,如IP地址,Mac地址等丢弃接收数据包数: 0 丢弃发送数据包数: 0 ...

IKAnalyzer结合Lucene实现中文分词

IKAnalyzer结合Lucene实现中文分词的更多相关文章

随机推荐

热门专题