分词器的核心类

Analyzer

SimpleAnalyzer
StopAnalyzer
WhitespaceAnalyzer
StandardAnalyzer

TokenStream

分词器做好处理之后得到的一个流，这个流中存储了分词的各种信息，可以通过TokenStream有效的获取到分词单元信息

在这个流中所需要存储的数据

Tokenizer

主要负责接收字符流Reader,将Reader进行分词操作。有如下一些实现类

TokenFilter

将分词的语汇单元，进行各种各样过滤

Attribute

自定义分词器

自定义Stop分词器

中文分词器

Paoding:庖丁解牛分词器。已经没有更新了
mmseg:使用搜狗的词库（）
1、导入包（有两个包:1、带dic,2、不带dic）
如果使用不带dic的，得自己指定词库位置

2、创建的时候使用MMSegAnalyzer分词器

简单实现同义词索引

同义词：最重要的是要在在原来的位置上添加同义词（位置增量为0）

当前几个主要的Lucene中文分词器的比较

2009年的一篇文章http://www.iteye.com/news/9637

基本介绍：
paoding ：Lucene中文分词“庖丁解牛” Paoding Analysis
imdict ：imdict智能词典所采用的智能中文分词程序
mmseg4j ：用 Chih-Hao Tsai 的 MMSeg 算法实现的中文分词器
ik ：采用了特有的“正向迭代最细粒度切分算法“，多子处理器分析模式
* 开发者及开发活跃度*：
paoding ：qieqie.wang， google code 上最后一次代码提交：2008-06-12，svn 版本号 132
imdict ：XiaoPingGao，进入了 lucene contribute，lucene trunk 中 contrib/analyzers/smartcn/ 最后一次提交：2009-07-24，
mmseg4j ：chenlb2008，google code 中 2009-08-03 （昨天），版本号 57，log为：mmseg4j-1.7 创建分支
ik ：linliangyi2005，google code 中 2009-07-31，版本号 41
用户自定义词库：
paoding ：支持不限制个数的用户自定义词库，纯文本格式，一行一词，使用后台线程检测词库的更新，自动编译更新过的词库到二进制版本，并加载
imdict ：暂时不支持用户自定义词库。但原版 ICTCLAS 支持。支持用户自定义 stop words
mmseg4j ：自带sogou词库，支持名为 wordsxxx.dic， utf8文本格式的用户自定义词库，一行一词。不支持自动检测。 -Dmmseg.dic.path
ik ：支持api级的用户词库加载，和配置级的词库文件指定，无 BOM 的 UTF-8 编码，\r\n 分割。不支持自动检测。
速度（基于官方介绍，非自己测试）
paoding ：在PIII 1G内存个人机器上，1秒可准确分词 100万汉字
imdict ：483.64 (字节/秒)，259517(汉字/秒)
mmseg4j ： complex 1200kb/s左右, simple 1900kb/s左右
ik ：linliangyi2005，google code 中 2009-07-31，版本号 41
算法和代码复杂度
paoding ：svn src 目录一共1.3M，6个properties文件，48个java文件，6895 行。使用不用的 Knife 切不同类型的流，不算很复杂。
imdict ：词库 6.7M（这个词库是必须的），src 目录 152k，20个java文件，2399行。使用 ICTCLAS HHMM隐马尔科夫模型，“利用大量语料库的训练来统计汉语词汇的词频和跳转概率，从而根据这些统计结果对整个汉语句子计算最似然(likelihood)的切分”
mmseg4j ： svn src 目录一共 132k，23个java文件，2089行。MMSeg 算法，有点复杂。
ik ： svn src 目录一共6.6M(词典文件也在里面)，22个java文件，4217行。多子处理器分析，跟paoding类似，歧义分析算法还没有弄明白。
文档
paoding ：几乎无。代码里有一些注释，但因为实现比较复杂，读代码还是有一些难度的。
imdict ：几乎无。 ICTCLAS 也没有详细的文档，HHMM隐马尔科夫模型的数学性太强，不太好理解。
mmseg4j ： MMSeg 算法是英文的，但原理比较简单。实现也比较清晰。
ik ：有一个pdf使用手册，里面有使用示例和配置说明。
其他
paoding ：引入隐喻，设计比较合理。search 1.0 版本就用的这个。主要优势在于原生支持词库更新检测。主要劣势为作者已经不更新甚至不维护了。
imdict：进入了 lucene trunk，原版 ictclas 在各种评测中都有不错的表现，有坚实的理论基础，不是个人山寨。缺点为暂时不支持用户词库。
mmseg4j ：在complex基础上实现了最多分词(max-word)，但是还不成熟，还有很多需要改进的地方。
ik ：针对Lucene全文检索优化的查询分析器IKQueryParse
结论
个人觉得，可以在 mmseg4j 和 paoding 中选一个。关于这两个分词效果的对比，可以参考 mmseg4j 多分词模式与 paoding 分词效果对比
或者自己再包装一下，将 paoding 的词库更新检测做一个单独的模块实现，然后就可以在所有基于词库的分词算法之间无缝切换了。
ps，对不同的 field 使用不同的分词器是一个可以考虑的方法。比如 tag 字段，就应该使用一个最简单的分词器，按空格分词就可以了。

lucene学习笔记（四）lucene分词详解的更多相关文章

IP2——IP地址和子网划分学习笔记之《子网掩码详解》
2018-05-04 16:21:21 在学习掌握了前面的<进制计数><IP地址详解>这两部分知识后,要学习子网划分,首先就要必须知道子网掩码,只有掌握了子网掩码这部分内容 ...
CDN学习笔记二（技术详解）
一本好的入门书是带你进入陌生领域的明灯,<CDN技术详解>绝对是带你进入CDN行业的那盏最亮的明灯.因此,虽然只是纯粹的重点抄录,我也要把<CDN技术详解>的精华放上网.公诸同 ...
[读书笔记]C#学习笔记三: C#类型详解..
前言这次分享的主要内容有五个, 分别是值类型和引用类型, 装箱与拆箱,常量与变量,运算符重载,static字段和static构造函数. 后期的分享会针对于C#2.0 3.0 4.0 等新特性进行. ...
C#学习笔记二: C#类型详解
前言这次分享的主要内容有五个, 分别是值类型和引用类型, 装箱与拆箱,常量与变量,运算符重载,static字段和static构造函数. 后期的分享会针对于C#2.0 3.0 4.0 等新特性进行. ...
【Java学习笔记之三十三】详解Java中try，catch，finally的用法及分析
这一篇我们将会介绍java中try,catch,finally的用法以下先给出try,catch用法: try { //需要被检测的异常代码 } catch(Exception e) { //异常处 ...
jQuery学习笔记之Ajax用法详解
这篇文章主要介绍了jQuery学习笔记之Ajax用法,结合实例形式较为详细的分析总结了jQuery中ajax的相关使用技巧,包括ajax请求.载入.处理.传递等,需要的朋友可以参考下本文实例讲述了j ...
MyBatis学习笔记2--配置环境详解
1.MyBatis-config.xml详解一个完整的配置文件如下所示 <configuration> <!-- <properties resource="jdb ...
[Spring学习笔记 5 ] Spring AOP 详解1
知识点回顾:一.IOC容器---DI依赖注入:setter注入(属性注入)/构造子注入/字段注入(注解 )/接口注入 out Spring IOC容器的使用: A.完全使用XML文件来配置容器所要管理 ...
CSS学习笔记（9）--详解CSS中:nth-child的用法
详解CSS中:nth-child的用法前端的哥们想必都接触过css中一个神奇的玩意,可以轻松选取你想要的标签并给与修改添加样式,是不是很给力,它就是“:nth-child”. 下面我将用几个典型的实 ...
ubuntu学习笔记-tar 解压缩命令详解(转)
tar 解压缩命令详解 -c: 建立压缩档案 -x:解压-t:查看内容-r:向压缩归档文件末尾追加文件-u:更新原压缩包中的文件这五个是独立的命令,压缩解压都要用到其中一个,可以和别的命令连用但只能 ...

随机推荐

bzoj1811 mea
Description 考虑一个非递减的整数序列 S1,....Sn+1(Si<=Si+1 1<=i<=n). 序列M1...Mn是定义在序列S的基础上,关系式为 Mi=( Si ...
Bootstrap-Plugin：提示工具（Tooltip）插件
ylbtech-Bootstrap-Plugin:提示工具(Tooltip)插件 1.返回顶部 1. Bootstrap 提示工具(Tooltip)插件当您想要描述一个链接的时候,提示工具(Tool ...
笔记本制作centos qcow2格式文件
笔记本win7先通过vbox安装好centos6.5 然后打开cmd命令行在c:\Program Files\Oracle\VirtualBox下执行 vboxmanage clonehd --for ...
django-控制mysql事物
from django.db import transaction 两种方式控制事务:为了保持数据一致性一个Book表,一个Author表.添加一本书,也要保证添加作者.By事物控制 book = ...
学习了django对于sqlite3进行了了解，谈谈看法
学习了django对于sqlite3进行了了解,谈谈看法由于django默认使用的是sqlite3,写了几个建表语句, 然后数据做下迁移,其实就是建表语句的执行. 一直对sqlite3没有一个直观的 ...
C# 进程(应用程序)间通信
SendMessage用法: 函数功能:该函数将指定的消息发送到一个或多个窗口.此函数为指定的窗口调用窗口程序,直到窗口程序处理完消息再返回.该函数是应用程序和应用程序之间进行消息传递的主要手段之一. ...
JSF + Primefaces: Problem with “rendered” components with ajax
Cant seem to get rendered to work correctly with update attributes. Here is my codes <ui:define n ...
confd test
vi /etc/confd/confd.toml backend = "consul"confdir = "/etc/confd"log-level = &qu ...
JavaScript中call,apply,bind方法
why?call,apply,bind干什么的?为什么要学这个? 一般用来指定this的环境,在没有学之前,通常会有这些问题. var a = { user:"追梦子", fn:f ...
在Spring使用junit注解进行单元测试
在Spring中可以使用junit配合注解进行单元测试一.常用注解 1.@RunWith(SpringJUnit4ClassRunner.class),让测试运行于spring测试环境2.@Cont ...

lucene学习笔记（四）lucene分词详解