Lucene整理--中文分词
版权声明:本文为博主原创文章,未经博主同意不得转载。 https://blog.csdn.net/hai_cheng001/article/details/37511379
看lucene主页(http://lucene.apache.org/)上眼下lucene已经到4.9.0版本号了, 參考学习的书是依照2.1版本号解说的,写的代码样例是用的3.0.2版本号的,版本号
的不同导致有些方法的使用差异,可是大体还是同样的。
參考资料:
1、公司内部培训资料
2、《Lucene搜索引擎开发权威经典》于天恩著.
Lucene使用挺简单的,耐心看完都能学会,还有源码。
分词的方法主要有下面几种:
1)、单字切分
单字切分就是把一段文字依照每一个字去建立索引。
比如将"阿根廷将捧起大力神杯"用单字切分就会切成"阿" "根" "廷" "将" "捧" "起" "大" "力" "神" "杯"10个词。这样的分词法
效率低下。但也能解决一些问题。聊胜于无。
前面几篇Lucene文章里面建立的索引都是应用的单字切分,所以在写的运行索引搜索的时候keyword都是单字的。
2)、二分法
把一段文字的每两个相邻的字算所一个词,这样"阿根廷将捧起大力神杯"就被切分成"阿根" "根廷" "廷将" "将捧" "捧起" "起大" "大力" "力神" "神杯"
这样的分词法效率也低,可是比单字切分要好些的。
3)、词典法
词典法就是建立一个词典文件,然后使用词典和文字段落进行匹配。从而得出分词结果
4)、语义法
这样的方法眼下仅仅存在于理论上。由于想让计算机全然读懂一个人表达的意思眼下还实现不了,中文博大精深的。人和人之间交流还有听不懂的时候呢。
1、先介绍下二分法分词器的使用
Lucene软件包下自带一个lucene-analyzers-3.0.2.jar的包 支持二分法分词
首先也是创建一个索引,代码不贴了。跟前面创建的索引(FootBall)仅仅有一行代码的差别:
IndexWriter indexWriter = new IndexWriter(dir, new CJKAnalyzer(Version.LUCENE_30), true,IndexWriter.MaxFieldLength.LIMITED);
索引创建完运行搜索,这个跟前面的代码没有不论什么差别,就是运行搜索的时候仅仅能是依据两个字的词进行搜索。用一个字或者三个字都检索不出东西来。
2、JE分词器的使用方法
JE是一个不错的分词器。很多人都在使用
它是一个基于词库的分词器,能够向分词器内添加新词。
演示一下这个分词器的使用:
<span style="font-family:SimSun;font-size:12px;">import java.io.IOException;
import jeasy.analysis.MMAnalyzer;
public class UseJE {
public static void main(String[] args) {
String str="阿根廷将捧起大力神杯";
MMAnalyzer mm=new MMAnalyzer();
try {
System.out.println(mm.segment(str, "---"));
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
}
</span>
运行结果控制台截图:
watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvY2FvaGFpY2hlbmc=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center" alt="" />
为什么会报这个错误呢,我找了好半天啊,由于JE分词器仅仅支持lucene1.9--lucene2.4版本号的。版本号太低不行,版本号太高也不行。我无语了。
下载个lucene2.0试了下,结果截图例如以下:
如何维护JE分词器词库呢
<span style="font-family:SimSun;font-size:12px;">import jeasy.analysis.MMAnalyzer;
public class AddWord {
public static void main(String[] args) {
MMAnalyzer mm=new MMAnalyzer();
System.out.println(MMAnalyzer.contains("曹海成"));//是否包括该词条
mm.addWord("曹海成");//像分词器内加入该词条
System.out.println(MMAnalyzer.contains("曹海成"));
System.out.println(mm.size());//包括词条总数
}
}
</span>
运行结果:
lucene要是全部版本号都支持JE分词器就好了。
3、IK分词器
<span style="font-family:SimSun;font-size:12px;">import java.io.IOException;
import java.io.StringReader;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.tokenattributes.TermAttribute;
import org.wltea.analyzer.lucene.IKAnalyzer;
public class UseIK {
public static void main(String[] args) {
String str="阿根廷将捧起大力神杯";
IKAnalyzer ik=new IKAnalyzer();
testAnalyzer(ik, str);
}
private static void testAnalyzer(IKAnalyzer ik, String str) {
System.out.println("当前使用的分词器:" + ik.getClass());
TokenStream tokenStream = ik.tokenStream("content",new StringReader(str));
tokenStream.addAttribute(TermAttribute.class);
try {
while (tokenStream.incrementToken()) {
TermAttribute termAttribute = tokenStream.getAttribute(TermAttribute.class);
System.out.println(termAttribute.term());
}
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
System.out.println();
}
}
</span>
运行结果截图:
Lucene整理--中文分词的更多相关文章
- Lucene的中文分词器IKAnalyzer
分词器对英文的支持是非常好的. 一般分词经过的流程: 1)切分关键词 2)去除停用词 3)把英文单词转为小写 但是老外写的分词器对中文分词一般都是单字分词,分词的效果不好. 国人林良益写的IK Ana ...
- IKAnalyzer结合Lucene实现中文分词
1.基本介绍 随着分词在信息检索领域应用的越来越广泛,分词这门技术对大家并不陌生.对于英文分词处理相对简单,经过拆分单词.排斥停止词.提取词干的过程基本就能实现英文分词,单对于中文分词而言,由于语义的 ...
- Lucene的中文分词器
1 什么是中文分词器 学过英文的都知道,英文是以单词为单位的,单词与单词之间以空格或者逗号句号隔开. 而中文的语义比较特殊,很难像英文那样,一个汉字一个汉字来划分. 所以需要一个能自动识别中文语义的分 ...
- lucene之中文分词及其高亮显示(五)
中文分词:即换个分词器 Analyzer analyzer = new StandardAnalyzer();// 标准分词器 换成 SmartChineseAnalyzer analyze ...
- (转)全文检索技术学习(三)——Lucene支持中文分词
http://blog.csdn.net/yerenyuan_pku/article/details/72591778 分析器(Analyzer)的执行过程 如下图是语汇单元的生成过程: 从一个Re ...
- lucene之中文分词及其高亮显示
参考:http://www.cnblogs.com/lirenzhujiu/p/5914174.html http://www.cnblogs.com/xing901022/p/3933675.htm ...
- Lucene基础(三)-- 中文分词及高亮显示
Lucene分词器及高亮 分词器 在lucene中我们按照分词方式把文档进行索引,不同的分词器索引的效果不太一样,之前的例子使用的都是标准分词器,对于英文的效果很好,但是中文分词效果就不怎么样,他会按 ...
- Lucene系列四:Lucene提供的分词器、IKAnalyze中文分词器集成、扩展 IKAnalyzer的停用词和新词
一.Lucene提供的分词器StandardAnalyzer和SmartChineseAnalyzer 1.新建一个测试Lucene提供的分词器的maven项目LuceneAnalyzer 2. 在p ...
- Apache Solr 初级教程(介绍、安装部署、Java接口、中文分词)
Python爬虫视频教程零基础小白到scrapy爬虫高手-轻松入门 https://item.taobao.com/item.htm?spm=a1z38n.10677092.0.0.482434a6E ...
随机推荐
- jenkins启动tomcat失败的解决方法
在网上看了都说是加BUILDID, 但是我加了之后,还是启动不成功. 执行了下面2个步骤: 1.在远程服务器的启动脚本里,用nohup来运行启动命令 nohup ./*.start.${prg}.sh ...
- (54)LINUX应用编程和网络编程之九Linux网络通信实践
3.9.1.linux网络编程框架 3.9.1.1.网络是分层的 (1)OSI 7层模型(理论指导) (2)网络为什么要分层 (3)网络分层的具体表现 3.9.1.2.TCP/IP协议引入(网络分层实 ...
- (45)FreeRTOS学习之二
一:架构概述 FreeRTOS是一个相对较小的应用程序.最小化的FreeRTOS内核仅包括3个(.c)文件和少数头文件,总共不到9000行代码,还包括了注释和空行.一个典型的编译后(二进制)代码映像小 ...
- [UPC10525]:Dove打扑克(暴力+模拟)
题目描述 $Dove$和$Cicada$是好朋友,他们经常在一起打扑克来消遣时光,但是他们打的扑克有不同的玩法. 最开始时,牌桌上会有$n$个牌堆,每个牌堆有且仅有一张牌,第$i$个牌堆里里里那个扑克 ...
- eclipse导出java项目jar包(依赖第三方jar包)
一.在项目根目录下建一个文件:MANIFEST.MF 内容: Manifest-Version: 1.0 Class-Path: lib/commons-compress-1.9.jar lib/co ...
- http常用标签
HTML标签大全(常用) 文本标记语言,即HTML(Hypertext Markup Language),是用于描述网页文档的一种标记语言. HTML之所以称为超文本标记语言,是因为文本中包含了所 ...
- wait, notify 使用清晰讲解
一个庙里, 三个和尚,只有一个碗, 三个和尚都要吃饭,所以每次吃饭的时候, 三个和尚抢着碗吃. package interview.java.difference.l05; public class ...
- PropertyInfo、FieldInfo、MemberInfo的区别
public class TestClass { ;//私有一律获取不到 public int b { ; } ; } } ; } public static void TestMethod() { ...
- 阶段3 1.Mybatis_06.使用Mybatis完成DAO层的开发_8 properties标签的使用及细节
properties 可以把数据库链接的配置放在上面的properties里面 #{占位符}的形式去引用上面的.下面的内容就是引用上面的内容的定义. 运行查询的方法测试一下 这样改造可以成功的运行程序 ...
- Linux监控命令之==>top
一.命令说明 top 命令能够实时监控系统的运行状态,并且可以按照CPU.内存和执行时间进行排序,同时top 命令还可以通过交互式命令进行设定显示,通过top 命令可以查看即时活跃的进行. 二.参数说 ...