IK的整个分词处理过程
首先,介绍一下IK的整个分词处理过程:
1. Lucene的分词基类是Analyzer,所以IK提供了Analyzer的一个实现类IKAnalyzer。首先,我们要实例化一个IKAnalyzer,它有一个构造方法接收一个参数isMaxWordLength,这个参数是标识IK是否采用最大词长分词,还是采用最细粒度切分两种分词算法。实际两种算法的实现,最大词长切分是对最细粒度切分的一种后续处理,是对最细粒度切分结果的过滤,选择出最长的分词结果。
2. IKAnalyzer类重写了Analyzer的tokenStream方法,这个方法接收两个参数,field name和输入流reader,其中filed name是Lucene的属性列,是对文本内容进行过分词处理和创建索引之后,索引对应的一个名称,类似数据库的列名。因为IK仅仅涉及分词处理,所以对field name没有进行任何处理,所以此处不做任何讨论。
3. tokenStream方法在Lucene对文本输入流reader进行分词处理时被调用,在IKAnalyzer的tokenStream方法里面仅仅实例化了一个IKTokenizer类,该类继承了Lucene的Tokenizer类。并重写了incrementToken方法,该方法的作用是处理文本输入流生成token,也就是Lucene的最小词元term,在IK里面叫做Lexeme。
4. 在IKtokenizer的构造方法里面实例化了IK里面最终要的分词类IKSegmentation,也称为主分词器。它的构造方法接收两个参数,reader和isMaxWordLength。
5. IKsegmentation的构造方法里面,主要做了三个工作,创建上下文对象Context,加载词典,创建子分词器。
6. Contex主要是存储分词结果集和记录分词处理的游标位置。
7. 词典是作为一个单例被创建的,主要有量词词典、主词典和停词词典。词典是被存储在字典片段类DictSegment 这个字典核心类里面的。DictSegment有一个静态的存储结构charMap,是公共词典表,用来存储所有汉字,key和value都是一个中文汉字,目前IK里面的charMap大概有7100多的键值对。另外,DictSegment还有两个最重要的数据结构,是用来存储字典树的,一个是DictSegment的数组childrenArray,另一个是key为单个汉字(每个词条的第一个汉字),value是DictSegment的HashMap childrenMap。这两个数据结构二者取其一,用来存储字典树。
8. 子分词器才是真正的分词类,IK里面有三个子分词器,量词分词器,CJK分词器(处理中文),停词分词器。主分词器IKSegmentation遍历这三个分词器对文本输入流进行分词处理。
9. IKTokenizer的incrementToken方法调用了IKSegmentation的next方法,next的作用是获得下一个分词结果。next在第一次被调用的时候,需要加载文本输入流,并将其读入buffer,此时便遍历子分词器,对buffer种的文本内容进行分词处理,然后把分词结果添加到context的lexemeSet中。
下面,以CJKSegmenter子分词器为例介绍一下生成分词结果集的流程:
1. IKSegmentation遍历Segmenter时,调用CJKSegmenter的nextLexeme方法,该方法接收两个参数,segmentBuf和context,segmentBuf是一个Character数组,文件输入流分解后得到,context即IK的Context类实例,用来记录segmentBuf游标以及存储切分后的词元lexeme。
2. 进入nextLexeme方法,首先判断是否中文字符,然后判断是否存在词段队列,举例来说“中华人民共和国”,这个词条,就会存在一个词段队列,分别存储“中华”、“中华人民”、“中华人民共和”、“中华人民共和国”,前面词段依次是后面词段的前缀。这个词段队列也是在nextLexeme方法中填充的。当一个词条和字典中的词匹配成功,并且也是字典中某个词条的前缀,则被加入队列,当一个词条不再是某个词条的前缀,移除出队列。
3. 如果词段队列里面不存在词段,把当前的Character与字典中的词匹配,创建一个新的hit,如果字典种存在这个Character,把hit添加进词段队列。如果词段队列里面已经存在词段,遍历词段队列,判断当前Character是否可以以词段队列中的词为前缀,组成一个字典中存在的词,如果可以,则加入lexemeSet中,如果不能匹配成词,则将这个前缀hit从队列种移除,因为以后也不会匹配成词了,故删除。
4. 如此循环执行nextLuxeme方法,最终将文本输入流切分成的词元lexeme完全放入context的lexemeSet中。这时,再次调用IKSegmentation类的next方法时,则会直接读取lexemeSet中已经切分好的词元。所以所有的切分工作都在第一次调用IKSegmentation的next的时候完成。
5. IK 分词算法理解
根据作者官方说法 IK 分词器采用“正向迭代最细粒度切分算法”, 分析它 的源代码, 可以看到分词工具类 IKQueryParser 起至关重要的作用, 它对搜索 关键词采用从最大词到最小词层层迭代检索方式切分,比如搜索词:“中华人 民共和国成立了”, 首先到词库中检索该搜索词中最大分割词, 即分割为: “中 华人民共和国”和“成立了”, 然后对“中华人民共和国”切分为“中华人民”和“人 民共和国”,以此类推。最后,“中华人民共和国成立了”切分为:“中华人民 | 中华 | 华人 | 人民 | 人民共和国 | 共和国 | 共和 | 成立 | 立了”,当然, 该切分方式为默认的细粒度切分,若按最大词长切分,结果为:“中华人民共 和国 | 成立 | 立了”。核心算法代码如下
boolean accept(Lexeme _lexeme){
/* * 检查新的lexeme 对当前的branch 的可接受类型 * acceptType : REFUSED 不能接受
* acceptType : ACCEPTED 接受 * acceptType : TONEXT 由相邻分支接受
*/ int acceptType = checkAccept(_lexeme); switch(acceptType){ case REFUSED: // REFUSE 情况 return false;
case ACCEPTED : if(acceptedBranchs == null){ //当前branch没有子branch,则添加到当前branch下 acceptedBranchs = new ArrayList<TokenBranch>(2); acceptedBranchs.add(new TokenBranch(_lexeme)); }else{ boolean acceptedByChild = false; //当前branch拥有子branch,则优先由子branch接纳 for(TokenBranch childBranch : acceptedBranchs){ acceptedByChild = childBranch.accept(_lexeme) || acceptedByChild; } //如果所有的子branch不能接纳,则由当前branch接纳 if(!acceptedByChild){ acceptedBranchs.add(new TokenBranch(_lexeme)); } } //设置branch的最大右边界 if(_lexeme.getEndPosition() > this.rightBorder){ this.rightBorder = _lexeme.getEndPosition(); } break;
case TONEXT : //把lexeme放入当前branch的相邻分支 if(this.nextBranch == null){ //如果还没有相邻分支,则建立一个不交叠的分支 this.nextBranch = new TokenBranch(null); } this.nextBranch.accept(_lexeme); break; }
return true; }
从代码中可以了解到,作者采用了递归算法(代码中加粗的部分)切分 搜索词。若词存在子词则递归该函数,继续切分。
IK 分词弱点、缺点 分词弱点 弱点、
总体来说,IK 是一个很不错的中文分词工具,但它自身也存在一些缺点,比如: a. 对歧义分词还需要扩展、改进,比如:”湖北石首” 和 “蒋介石首次访问”,
如果用户搜索”石首”会把”蒋介石首次访问”也显示出来。 b. 对英文单词的搜索还需改进,比如:”IKAnalyzer”或”UU 音乐”,如果用户输 入搜索关键词”IKAnaly”或”U”则无法搜索出结果。 c. IKAnalyzer.cfg.xml 中关于词典的配置,暂不支持通配符方式,这样导致如果 有大批词典配置文件时会很麻烦。
IKAnalyzer中文分词器
目前比较好的的分词器有IKAnalyzer、Paoding,都是开源的,在Google code里面可以免费下载。
我最近也在学习IKAnalyzer中文分词器。在下载的使用文档中也有比较详细的说明(开源项目 :下载地址是: http://code.google.com/p/ik-analyzeranalyzer )。在eclipse中导入分词器,这里要注意的是一个版本兼容性问题,IKAnalyzer2012兼容的是Lucene3.1以上的版本,由于我的eclipse中的Lucene的版本是3.0的,因此还要更新eclipse中的Lucene。但是也可以不更新,因为在IKAnalyzer2012中分词器有两个:一个是IKAnalyzer,另外一个是IKSegmenter。前者继承Lucene,而后者是可以独立。我也在网上找了一些中文分词的代码,看了之后还是觉得下边这个代码不错:
import java.io.*;
import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
import org.wltea.analyzer.core.IKSegmenter;
import org.wltea.analyzer.core.Lexeme;
import org.wltea.analyzer.lucene.IKAnalyzer;
public class IKAnalyzerTest {
public static String str="IK Analyzer是一个开源的,基于java语言" +
"开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始, " +
"IKAnalyzer已经推出了4个大版本。最初,它是以开源项目Luence为" +
"应用主体的,结合词典分词和文法分析算法的中文分词组件。从3.0版" +
"本开始,IK发展为面向Java的公用分词组件,独立于Lucene项目,同时" +
"提供了对Lucene的默认优化实现。";
public static void main(String args[]) throws IOException {
//基于Lucene实现Analyzer analyzer = new IKAnalyzer(true);//true智能切分
StringReader reader = new StringReader(str);
TokenStream ts = analyzer.tokenStream("", reader);
CharTermAttribute term = ts.getAttribute(CharTermAttribute.class);
while(ts.incrementToken()){
System.out.print(term.toString()+"|");
}reader.close();System.out.println(); //独立Lucene实现StringReader re = new StringReader(str);
IKSegmenter ik = new IKSegmenter(re,true);
Lexeme lex = null;
while((lex=ik.next())!=null){
System.out.print(lex.getLexemeText()+"|");
}}}运行的结果如下:ik|analyzer|开源|基于|java|语言|开发|轻量级|中文|分词|工具包|2006年|12月|推出|1.0版|开始|ikanalyzer|已经|推|4个|大|版本|
ik|analyzer|开源|基于|java|语言|开发|轻量级|中文|分词|工具包|2006年|12月|推出|1.0版|开始|ikanalyzer|已经|推|4个|大|版本|
以上是学习中文分词器的第一次试验。
原文地址:https://www.iteye.com/blog/fengbin2005-1885577
IK的整个分词处理过程的更多相关文章
- 菜鸟如何使用hanlp做分词的过程记录
菜鸟如何使用hanlp做分词的过程记录 最近在学习hanlp的内容,准备在节后看看有没有时间整理一波hanlp分享下,应该还是会像之前分享DKHadoop一样的方式吧.把整个学习的过程中截图在配文字的 ...
- Win7下Solr4.10.1和IK Analyzer中文分词
1.下载IK中文分词压缩包IK Analyzer 2012FF_hf1,并解压到D:\IK Analyzer 2012FF_hf1: 2.将D:\IK Analyzer 2012FF_hf1\IKAn ...
- 如何在Elasticsearch中安装中文分词器(IK)和拼音分词器?
声明:我使用的Elasticsearch的版本是5.4.0,安装分词器前请先安装maven 一:安装maven https://github.com/apache/maven 说明: 安装maven需 ...
- Lucene全文搜索之分词器:使用IK Analyzer中文分词器(修改IK Analyzer源码使其支持lucene5.5.x)
注意:基于lucene5.5.x版本 一.简单介绍下IK Analyzer IK Analyzer是linliangyi2007的作品,再此表示感谢,他的博客地址:http://linliangyi2 ...
- docker环境下elasticsearch安装ik和拼音分词
elasticsearch拼音分词地址:https://github.com/medcl/elasticsearch-analysis-pinyin/releases 在elasticsearch下面 ...
- Lucene使用IKAnalyzer分词实例 及 IKAnalyzer扩展词库
文章转载自:http://www.cnblogs.com/dennisit/archive/2013/04/07/3005847.html 方案一: 基于配置的词典扩充 项目结构图如下: IK分词器还 ...
- IKAnalyzer 分词
IK Analyzer 3.0特性 采用了特有的"正向迭代最细粒度切分算法",具有80万字/秒的高速处理能力 采用了多子处理器分析模式,支持:英文字母(IP地址.Email.URL ...
- Lucene 03 - 什么是分词器 + 使用IK中文分词器
目录 1 分词器概述 1.1 分词器简介 1.2 分词器的使用 1.3 中文分词器 1.3.1 中文分词器简介 1.3.2 Lucene提供的中文分词器 1.3.3 第三方中文分词器 2 IK分词器的 ...
- windows下elasticsearch6.X安装IK分词器
文章来源:https://www.cnblogs.com/hts-technology/category/1167823.html (一)到官网下载https://github.com/medcl/e ...
随机推荐
- 架构-软件系统体系结构-B/S架构:B/S架构
ylbtech-架构-软件系统体系结构-B/S架构:B/S架构 B/S架构即浏览器和服务器架构模式.它是随着Internet技术的兴起,对C/S架构的一种变化或者改进的架构.在这种架构下,用户工作界面 ...
- Spellchecker inspection helps locate typos and misspelling in your code, comments and literals, and fix them in one click
Pycharm设置 Pycharm总是很多的拼写检查波拉线 Spellchecker inspection helps locate typos and misspelling in your cod ...
- Dynamic partition strict mode requires at least one static partition column.
https://blog.csdn.net/huobumingbai1234/article/details/81099856
- JAVA学习之数组
一.数组定义同一种类型数据的集合,其实数组就是一个容器数组定义格式:1.数据类型[] 变量名 = new 数据类型[数组长度] int[] arr = new int[5]; 2.数据类型[] 数组名 ...
- GIT 学习第二天 (二)
工作区和暂存区 工作区: 就是你在电脑里能看到的目录,比如:webgit 文件夹 就是一个工作区 版本库: 工作区有一个隐藏目录 .git ,这个不算工作区,而是Git的版本库 Git的版本库里存了很 ...
- js小项目:显示与输入的内容相关的
1,添加键盘抬起事件 2,获取文本框的内容,是否与数组中的内容匹配 3,创建元素 <!DOCTYPE html> <html lang="en"> < ...
- 用node-http-proxy搭建代理
程序员三大必备网站是:Google.Github.StackOverflow.如果你还在用Baidu搜索技术文章的话,我想说的是,少年你已经被鄙视很多年了,赶紧换成谷歌吧,不要再被鄙视了!Github ...
- python获取全部股票每日基本面指标,用于选股分析、报表展示等
接口:daily_basic 更新时间:交易日每日15点-17点之间 描述:获取全部股票每日重要的基本面指标,可用于选股分析.报表展示等. 积分:用户需要至少300积分才可以调取,具体请参阅本文最下方 ...
- vue 过滤器filter的详解
1.代码运用的地方 <!-- 在双花括号中 --> {{ date | formatDate}} <!-- 在 `v-bind` 中 --> <div v-bind:id ...
- plsql连接问题
PLsql好久没用了,今天想用的时候,发现自己忘记本地实例(system)的密码了,试了几个自己常用的密码都不对,提示“ORA-01017:invalid username/password;logo ...