IKAnalyzer结合Lucene实现中文分词

1、基本介绍

　　随着分词在信息检索领域应用的越来越广泛，分词这门技术对大家并不陌生。对于英文分词处理相对简单，经过拆分单词、排斥停止词、提取词干的过程基本就能实现英文分词，单对于中文分词而言，由于语义的复杂导致分词并没英文分词那么简单，一般都是通过相关的分词工具来实现，目前比较常用的有庖丁分词以及IKAnalyzer等。这里我们主要通过一个简单的Demo聊聊IKAnalyzer的基本使用。IKAnalyzer是一个开源的，基于java开发的分词工具包，它独立于Lucene项目，同时提供了Lucene的默认实现。

2、IKAnalyzer结合Lucene实现简单的中文分词

　　我们通过一个基本的Demo来实践说明，步骤如下：

step1：准备相关的Jar依赖，lucene-core-5.1.0.jar、ik.jar，然后新建项目，引入相关依赖项目结构如下：

IkDemo-src

　　　　　-con.funnyboy.ik

-IKAnalyzer.cfg.xml

　　　　　-stopword.dic

-ext.dic

-Reference Libraries

　　　　　-lucene-core-5.1.0.jar

　　　　　-ik.jar

IKAnalyzer.cfg.xml：配置扩展词典以及停止词典内容如下：

<?xml version="1.0" encoding="UTF-8"?>

<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">

<properties> <comment>IK Analyzer 扩展配置</comment>

　　<entry key="ext_stopwords">stopword.dic;</entry>

</properties>

其中的ext.dic配置自己的扩展字典，stopword.dic配置自己的扩展停止词字典

step2：通过java代码验证测试

public class MyIkTest {

　　public static String str = "中国人民银行我是中国人";

　　public static void main(String[] args) {

　　　　 MyIkTest test = new MyIkTest();

　　　　 test.wordCount("", str);

　　 }

　　private void wordCount(String arg,String content) {

　　　 Analyzer analyzer = new IKAnalyzer(true); // IK实现分词 true:用最大词长分词 false:最细粒度切分

　　　　StringReader reader = null;

　　　　TokenStream ts = null; try {

　　　　　　reader = new StringReader(content);

　　　　　　ts = analyzer.tokenStream(arg,reader);

　　　　　　CharTermAttribute term = ts.addAttribute(CharTermAttribute.class);

　　　　　　ts.reset();

　　　　　　Map<String, Integer> map = new HashMap<String, Integer>(); //统计

　　　　　　while (ts.incrementToken()) {

　　　　　　　　String str = term.toString();

　　　　　　　　Object o = map.get(str);

　　　　　　　　if (o == null) {

　　　　　　　　　　map.put(str, new Integer(1));

　　　　　　　　 } else {

　　　　　　　　　　Integer i = new Integer(((Integer) o).intValue() + 1);

　　　　　　　　　　 map.put(str, i);

　　　　　　　　}

　　　　　　List<Entry<String, Integer>> list = new ArrayList<Entry<String, Integer>>(map.entrySet());

　　　　　　Collections.sort(list,new Comparator<Map.Entry<String, Integer>>() {

　　　　　　　　public int compare(Map.Entry<String, Integer> o1,Map.Entry<String, Integer> o2) {

　　　　　　　　　　return (o2.getValue() - o1.getValue());

　　　　　　　　} });

　　　　　　 for (int k=0;k<list.size();k++) {

　　　　　　　　Entry<String, Integer> it=list.get(k);

　　　　　　　　String word = it.getKey().toString();

　　　　　　　　System.err.println(word+"["+it.getValue()+"]");

　　　　　　　}

　　　　} catch (Exception e) {

　　　 } finally {

　　　　　　if(reader != null){

　　　　　　　　 reader.close();

　　　　　　}

　　　　　　if (analyzer != null) {

　　　　　　　　analyzer.close();

　　　　　　}

执行程序测试结果如下：

中国人民银行[1]

中国人[1]

我[1]

3、配置说明

a、如何自定义配置扩展词典和停止词典 IKAnalyzer.cfg.xml中定义了扩展词典和停止词典，如果有多好个可以通过;配置多个。扩展词典是指用户可以根据自己定义的词义实现分词，比如人名在默认的词典中并未实现，需要自定义实现分词，卡可以通过在ext.dic中新增自定义的词语。停止词是指对于分词没有实际意义但出现频率很高的词，比如吗、乎等语气词，用户也可以通过在stopword.dic中自定义相关的停止词。

b、关于最大词长分词和最小粒度分词的区分在IKAnalyzer构造方法中可以通过提供一个标示来实现最大词长分词和最小粒度分词，true为最大词长分词，默认是最小粒度分词。对"中国人民银行我是中国人"分别测试结果如下：

最大词长分词结果如下：

中国人民银行[1]

中国人[1]

我[1]

最小粒度分词结果如下：
国人[2]
中国人[2]
中国[2]
人民[1]
中国人民银行[1]
我[1]
人民银行[1]
中国人民[1]
银行[1]

IKAnalyzer结合Lucene实现中文分词的更多相关文章

Lucene的中文分词器IKAnalyzer
分词器对英文的支持是非常好的. 一般分词经过的流程: 1)切分关键词 2)去除停用词 3)把英文单词转为小写但是老外写的分词器对中文分词一般都是单字分词,分词的效果不好. 国人林良益写的IK Ana ...
Lucene的中文分词器
1 什么是中文分词器学过英文的都知道,英文是以单词为单位的,单词与单词之间以空格或者逗号句号隔开. 而中文的语义比较特殊,很难像英文那样,一个汉字一个汉字来划分. 所以需要一个能自动识别中文语义的分 ...
（转）全文检索技术学习(三)——Lucene支持中文分词
http://blog.csdn.net/yerenyuan_pku/article/details/72591778 分析器(Analyzer)的执行过程如下图是语汇单元的生成过程: 从一个Re ...
lucene之中文分词及其高亮显示(五)
中文分词:即换个分词器 Analyzer analyzer = new StandardAnalyzer();// 标准分词器换成 SmartChineseAnalyzer analyze ...
Lucene整理--中文分词
版权声明:本文为博主原创文章,未经博主同意不得转载. https://blog.csdn.net/hai_cheng001/article/details/37511379 看lucene主页(htt ...
lucene之中文分词及其高亮显示
参考:http://www.cnblogs.com/lirenzhujiu/p/5914174.html http://www.cnblogs.com/xing901022/p/3933675.htm ...
Lucene系列四：Lucene提供的分词器、IKAnalyze中文分词器集成、扩展 IKAnalyzer的停用词和新词
一.Lucene提供的分词器StandardAnalyzer和SmartChineseAnalyzer 1.新建一个测试Lucene提供的分词器的maven项目LuceneAnalyzer 2. 在p ...
Apache Solr 初级教程（介绍、安装部署、Java接口、中文分词）
Python爬虫视频教程零基础小白到scrapy爬虫高手-轻松入门 https://item.taobao.com/item.htm?spm=a1z38n.10677092.0.0.482434a6E ...
Lucene学习——IKAnalyzer中文分词
一.环境 1.平台:MyEclipse8.5/JDK1.5 2.开源框架:Lucene3.6.1/IKAnalyzer2012 3.目的:测试IKAnalyzer的分词效果二.开发调试 1.下载框架 ...

随机推荐

实战web前端之：Bootstrap框架windows下安装与使用
Bootstrap是前端开发中比较受欢迎的框架,简洁且灵活.它基于HTML.CSS和JavaScript,HTML定义页面元素,CSS定义页面布局,而JavaScript负责页面元素的响应.Boots ...
一起学Android之Dialog
概述对话框(Dialog)是一个小窗口,在Android系统开发中经常会用到,它提示用户做决定或者输入一些东西,对话框并不填充屏幕,是一个模态(Modal)窗口.Dialog类是所有对话框的基类,应 ...
浅析C语言中的整形类型
在C语言中,可以把字符型.短整形.整形.长整形都看作是整形,同属于整形家族这个大类型. 这些类型的大小,默认是否有符号等一些知识点较零散,较容易混淆,所以特地整理如下. 一类型存储字节长度说明 ...
python学习——读取染色体长度（七：读取fasta文件）
读取fasta文件genome_test.fa,并计算染色体总长,同时输出最长染色体编号.序列以及长度 fasta文件genom_test.fa的内容如下: >chr1ATATATATAT> ...
编译Xposed
Xposed是Android平台上的有名的Hook工具,用它可以修改函数参数,函数返回值和类字段值等等,也可以用它来进行调试.Xposed有几个部分组成: 修改过的android_art,这个项目修改 ...
windows的80端口被占用时的处理方法
1.利用jfinal极速开发时,显示异常,80端口被占用. 2.win+R输入cmd打开黑窗口. netstat -ano | findstr 3.发现进程被占用,输入以下指令停止http服务 net ...
.NET Core微服务之基于Jenkins+Docker实现持续部署（Part 1）
Tip: 此篇已加入.NET Core微服务基础系列文章索引一.CI, CD 与Jenkins 互联网软件的开发和发布,已经形成了一套标准流程,最重要的组成部分就是持续集成(Continuous i ...
[区块链] 加密算法——Hash算法（进阶）
为了为保证存储于区块链中的信息的安全与完整,区块链中使用了包含密码哈希函数和椭圆曲线公钥密码技术在内的大量的现代密码学技术,同时,这些密码学技术也被用于设计基于工作量证明的共识算法并识别用户. 在前边 ...
总结http get和post的区别
这个问题几乎面试的时候都会问到,是一个老生常谈的话题,然而随着不断的学习,对于以前的认识有很多误区,所以还是需要不断地总结的,学而时习之,不亦说乎. 什么是http? get.post常见的区别 ge ...
Navicat 导出sql问题
楼主最近碰到一个问题: 使用Navicat建立数据模型的时候使用导出sql功能导出的sql脚本放在sqlserver中执行失败,表创建成功了,但是我在Navicat中写的表注释和字段注释都没有成功, ...

IKAnalyzer结合Lucene实现中文分词

IKAnalyzer结合Lucene实现中文分词的更多相关文章

随机推荐

热门专题