Analyzer原理
【常用分词器】
- SimpleAnalyzer
- StopAnalyzer
- WhitespaceAnalyzer
- StandardAnalyze
【TokenStream】
she is a student ==〉TokenStream
TokenStream有2个实现类。Tokenizer、TokenFilter
1) Tokenizer
将数据进行分割形成一定的语汇(所谓语汇是指一个一个独立的词语。)。最终结果将形成TokenStream。
2) TokenFilter
按照规则对语汇进行过滤。如:StopFilter可以对停用词进行过滤。
3) 执行过程
【存储方式】
【应用TokenStream】
/**
* 使用TokenStream进行分词
* @param str
* @param analyzer
*/
public static void displayTokenStream(String str, Analyzer analyzer){
try {
//通过Analayer获取TokenStream
//toenStream("域名称或文件名",输入流对象)
TokenStream stream = analyzer.tokenStream("content", new StringReader(str)); //向流中添加一个属性
//容器,存储每次分词所对应的语汇内容
CharTermAttribute charAttr = stream.addAttribute(CharTermAttribute.class); //通过循环语句读取语汇的内容
while(stream.incrementToken()){
System.out.print("[" + charAttr + "] ");
}
System.out.println();
} catch (IOException e) {
e.printStackTrace();
}
}
private Version version = Version.LUCENE_35; /**
* 测试TokenStream(英文内容)
*/
@Test
public void test01(){
String str = "I'm come from Hanlin,I love Hanlin";
System.out.println("str = " + str);
System.out.println("===================================="); //创建Analyzer对象
Analyzer a1 = new SimpleAnalyzer(version);
Analyzer a2 = new StopAnalyzer(version);
Analyzer a3 = new WhitespaceAnalyzer(version);
Analyzer a4 = new StandardAnalyzer(version); //测试TokenStream
AnalyzerUtil.displayTokenStream(str, a1);
AnalyzerUtil.displayTokenStream(str, a2);
AnalyzerUtil.displayTokenStream(str, a3);
AnalyzerUtil.displayTokenStream(str, a4);
}
/**
* 测试TokenStream(中文内容)
*/
@Test
public void test02(){
String str = "我来自翰林,我爱翰林";
System.out.println("str = " + str);
System.out.println("===================================="); //创建Analyzer对象
Analyzer a1 = new SimpleAnalyzer(version);
Analyzer a2 = new StopAnalyzer(version);
Analyzer a3 = new WhitespaceAnalyzer(version);
Analyzer a4 = new StandardAnalyzer(version); //测试TokenStream
AnalyzerUtil.displayTokenStream(str, a1);
AnalyzerUtil.displayTokenStream(str, a2);
AnalyzerUtil.displayTokenStream(str, a3);
AnalyzerUtil.displayTokenStream(str, a4);
}
TokenStream可以读取到分词内容.
【Attribute】
/**
* 显示语汇的基本属性
* @param str
* @param anlyzer
*/
public static void displayAttributes(String str, Analyzer anlyzer){
try {
//获取TokenStream对象
TokenStream stream = anlyzer.tokenStream("content", new StringReader(str)); //PositionIncrementAttribute :存储了语汇之间的位置增量
//添加PositionIncrementAttribute属性
PositionIncrementAttribute positionAttr = stream.addAttribute(PositionIncrementAttribute.class); //添加CharTermAttrbute
CharTermAttribute charAttr = stream.addAttribute(CharTermAttribute.class);
//OffsetAttribute:获取语汇的偏移数据
OffsetAttribute offsetAttr = stream.addAttribute(OffsetAttribute.class); //语汇的分词方式类型(了解)
TypeAttribute typeAttr = stream.addAttribute(TypeAttribute.class); //遍历每一个语汇
while(stream.incrementToken()){
System.out.print(positionAttr.getPositionIncrement() + "、");
System.out.print("[" + charAttr + " : " + offsetAttr.startOffset() + "~" + offsetAttr.endOffset()+ "(" + typeAttr.type()+ ")] " );
}
System.out.println(); } catch (IOException e) {
e.printStackTrace();
}
}
/**
* 测试属性的应用
*/
@Test
public void test03(){
String str = "I'm come from Hanlin,I love Hanlin";
System.out.println("str = " + str);
System.out.println("===================================="); //创建Analyzer对象
Analyzer a1 = new SimpleAnalyzer(version);
Analyzer a2 = new StopAnalyzer(version);
Analyzer a3 = new WhitespaceAnalyzer(version);
Analyzer a4 = new StandardAnalyzer(version); //测试TokenStream
AnalyzerUtil.displayAttributes(str, a1);
AnalyzerUtil.displayAttributes(str, a2);
AnalyzerUtil.displayAttributes(str, a3);
AnalyzerUtil.displayAttributes(str, a4);
}
FlagsAttribute:标志位属性信息(了解)
PayloadAttribute:负载属性信息(了解)
说明:每一个语汇单元都存在一定的属性.通过Attribute可以获取到相关的语汇信息。
Analyzer原理的更多相关文章
- Lucene 工作原理 之倒排索引
1.简介 倒排索引源于实际应用中需要根据属性的值来查找记录.这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址.由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排 ...
- Compiler Theory(编译原理)、词法/语法/AST/中间代码优化在Webshell检测上的应用
catalog . 引论 . 构建一个编译器的相关科学 . 程序设计语言基础 . 一个简单的语法制导翻译器 . 简单表达式的翻译器(源代码示例) . 词法分析 . 生成中间代码 . 词法分析器的实现 ...
- LDO稳压器工作原理
LDO稳压器工作原理 随着便携式设备(电池供电)在过去十年间的快速增长,像原来的业界标准 LM340 和LM317 这样的稳压器件已经无法满足新的需要.这些稳压器使用NPN 达林顿管,在本文中称其为N ...
- IKAnalyzer原理分析
IKAnalyzer原理分析 IKAnalyzer自带的 void org.wltea.analyzer.dic.Dictionary.disableWords(Collection<Strin ...
- 免费的Lucene 原理与代码分析完整版下载
Lucene是一个基于Java的高效的全文检索库.那么什么是全文检索,为什么需要全文检索?目前人们生活中出现的数据总的来说分为两类:结构化数据和非结构化数据.很容易理解,结构化数据是有固定格式和结构的 ...
- R语言︱文本挖掘之中文分词包——Rwordseg包(原理、功能、详解)
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 笔者寄语:与前面的RsowballC分词不同的 ...
- Lucene 的索引文件锁原理
Lucene 的索引文件锁原理 2016/11/24 · IT技术 · lucene 环境 Lucene 6.0.0Java “1.8.0_111”OS Windows 7 Ultimate 线程 ...
- springboot之启动原理解析
前言 SpringBoot为我们做的自动配置,确实方便快捷,但是对于新手来说,如果不大懂SpringBoot内部启动原理,以后难免会吃亏.所以这次博主就跟你们一起一步步揭开SpringBoot的神秘面 ...
- SpringBoot启动原理及相关流程
一.springboot启动原理及相关流程概览 springboot是基于spring的新型的轻量级框架,最厉害的地方当属自动配置.那我们就可以根据启动流程和相关原理来看看,如何实现传奇的自动配置 二 ...
随机推荐
- 《windows核心编程系列》四谈谈进程的建立和终止
第二部分:工作机理 第一章:进程 上一章介绍了内核对象,这一节开始就要不断接触各种内核对象了.首先要给大家介绍的是进程内核对象.进程大家都不陌生,它是资源和分配的基本单位,而进程内核对象就是与进程相关 ...
- Permutation UVA - 11525(值域树状数组,树状数组区间第k大(离线),log方,log)(值域线段树第k大)
Permutation UVA - 11525 看康托展开 题目给出的式子(n=s[1]*(k-1)!+s[2]*(k-2)!+...+s[k]*0!)非常像逆康托展开(将n个数的所有排列按字典序排序 ...
- glassfish的启动
一.Glassfish v3 的安装 1. chmod 775/+x glassfish-v3.zip 改权限 2.unzip glassfish-v3.zip 3../asadmin star ...
- 准确计算CoreText高度的方法:
- (int)getAttributedStringHeightWithString:(NSAttributedString *) string WidthValue:(int) width { ; ...
- 设置UITableViewCell 选中时的背景颜色
自定义Cell如图 一个View上面放了四个Label 分别连线到.m文件中 @property (weak, nonatomic) IBOutlet UILabel *nameLabel; @pro ...
- ORA-28002错误原因及解决办法
在oracle database 11g中,默认在default概要文件中设置了“PASSWORD_LIFE_TIME=180天”所导致.密码过期后,业务进程连接数据库异常,影响业务使用.数据库密码过 ...
- Spring框架学习-搭建第一个Spring项目
步骤一:下载Spring开发包. 官网:https://spring.io/ 下载地址:https://repo.spring.io/libs-release-local/org/ ...
- [BZOJ1085][SCOI2005]骑士精神 搜索
题目链接:http://www.lydsy.com/JudgeOnline/problem.php?id=1085 大的思路是迭代加深搜索,我们加一个明显的剪枝,当棋盘中位置不对的骑士的数目加上已经走 ...
- 使用VirtualBox的时候虚拟机无法ping通windows主机,但是主机可以ping通虚拟机
问题原因是windows开启了防火墙导致的,将windows的防火墙关闭即可. 关闭windows防火墙后会有警告的信息出现,直接无视即可.
- spring中for循环中事务
1.需求:批量插入一批数据,不用spring jdbc的批处理,用for循环插入数据. 2.遇到的问题:在for循环中,当一个插入不成功,前面插入成功的数据也将回滚. 3.初始设计:在service中 ...