Analyzer原理
【常用分词器】
- SimpleAnalyzer
- StopAnalyzer
- WhitespaceAnalyzer
- StandardAnalyze
【TokenStream】
she is a student ==〉TokenStream
TokenStream有2个实现类。Tokenizer、TokenFilter
1) Tokenizer
将数据进行分割形成一定的语汇(所谓语汇是指一个一个独立的词语。)。最终结果将形成TokenStream。

2) TokenFilter
按照规则对语汇进行过滤。如:StopFilter可以对停用词进行过滤。

3) 执行过程

【存储方式】

【应用TokenStream】
/**
* 使用TokenStream进行分词
* @param str
* @param analyzer
*/
public static void displayTokenStream(String str, Analyzer analyzer){
try {
//通过Analayer获取TokenStream
//toenStream("域名称或文件名",输入流对象)
TokenStream stream = analyzer.tokenStream("content", new StringReader(str)); //向流中添加一个属性
//容器,存储每次分词所对应的语汇内容
CharTermAttribute charAttr = stream.addAttribute(CharTermAttribute.class); //通过循环语句读取语汇的内容
while(stream.incrementToken()){
System.out.print("[" + charAttr + "] ");
}
System.out.println();
} catch (IOException e) {
e.printStackTrace();
}
}
private Version version = Version.LUCENE_35;
/**
* 测试TokenStream(英文内容)
*/
@Test
public void test01(){
String str = "I'm come from Hanlin,I love Hanlin";
System.out.println("str = " + str);
System.out.println("====================================");
//创建Analyzer对象
Analyzer a1 = new SimpleAnalyzer(version);
Analyzer a2 = new StopAnalyzer(version);
Analyzer a3 = new WhitespaceAnalyzer(version);
Analyzer a4 = new StandardAnalyzer(version);
//测试TokenStream
AnalyzerUtil.displayTokenStream(str, a1);
AnalyzerUtil.displayTokenStream(str, a2);
AnalyzerUtil.displayTokenStream(str, a3);
AnalyzerUtil.displayTokenStream(str, a4);
}
/**
* 测试TokenStream(中文内容)
*/
@Test
public void test02(){
String str = "我来自翰林,我爱翰林";
System.out.println("str = " + str);
System.out.println("===================================="); //创建Analyzer对象
Analyzer a1 = new SimpleAnalyzer(version);
Analyzer a2 = new StopAnalyzer(version);
Analyzer a3 = new WhitespaceAnalyzer(version);
Analyzer a4 = new StandardAnalyzer(version); //测试TokenStream
AnalyzerUtil.displayTokenStream(str, a1);
AnalyzerUtil.displayTokenStream(str, a2);
AnalyzerUtil.displayTokenStream(str, a3);
AnalyzerUtil.displayTokenStream(str, a4);
}
TokenStream可以读取到分词内容.
【Attribute】
/**
* 显示语汇的基本属性
* @param str
* @param anlyzer
*/
public static void displayAttributes(String str, Analyzer anlyzer){
try {
//获取TokenStream对象
TokenStream stream = anlyzer.tokenStream("content", new StringReader(str)); //PositionIncrementAttribute :存储了语汇之间的位置增量
//添加PositionIncrementAttribute属性
PositionIncrementAttribute positionAttr = stream.addAttribute(PositionIncrementAttribute.class); //添加CharTermAttrbute
CharTermAttribute charAttr = stream.addAttribute(CharTermAttribute.class);
//OffsetAttribute:获取语汇的偏移数据
OffsetAttribute offsetAttr = stream.addAttribute(OffsetAttribute.class); //语汇的分词方式类型(了解)
TypeAttribute typeAttr = stream.addAttribute(TypeAttribute.class); //遍历每一个语汇
while(stream.incrementToken()){
System.out.print(positionAttr.getPositionIncrement() + "、");
System.out.print("[" + charAttr + " : " + offsetAttr.startOffset() + "~" + offsetAttr.endOffset()+ "(" + typeAttr.type()+ ")] " );
}
System.out.println(); } catch (IOException e) {
e.printStackTrace();
}
}
/**
* 测试属性的应用
*/
@Test
public void test03(){
String str = "I'm come from Hanlin,I love Hanlin";
System.out.println("str = " + str);
System.out.println("===================================="); //创建Analyzer对象
Analyzer a1 = new SimpleAnalyzer(version);
Analyzer a2 = new StopAnalyzer(version);
Analyzer a3 = new WhitespaceAnalyzer(version);
Analyzer a4 = new StandardAnalyzer(version); //测试TokenStream
AnalyzerUtil.displayAttributes(str, a1);
AnalyzerUtil.displayAttributes(str, a2);
AnalyzerUtil.displayAttributes(str, a3);
AnalyzerUtil.displayAttributes(str, a4);
}
FlagsAttribute:标志位属性信息(了解)
PayloadAttribute:负载属性信息(了解)
说明:每一个语汇单元都存在一定的属性.通过Attribute可以获取到相关的语汇信息。
Analyzer原理的更多相关文章
- Lucene 工作原理 之倒排索引
1.简介 倒排索引源于实际应用中需要根据属性的值来查找记录.这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址.由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排 ...
- Compiler Theory(编译原理)、词法/语法/AST/中间代码优化在Webshell检测上的应用
catalog . 引论 . 构建一个编译器的相关科学 . 程序设计语言基础 . 一个简单的语法制导翻译器 . 简单表达式的翻译器(源代码示例) . 词法分析 . 生成中间代码 . 词法分析器的实现 ...
- LDO稳压器工作原理
LDO稳压器工作原理 随着便携式设备(电池供电)在过去十年间的快速增长,像原来的业界标准 LM340 和LM317 这样的稳压器件已经无法满足新的需要.这些稳压器使用NPN 达林顿管,在本文中称其为N ...
- IKAnalyzer原理分析
IKAnalyzer原理分析 IKAnalyzer自带的 void org.wltea.analyzer.dic.Dictionary.disableWords(Collection<Strin ...
- 免费的Lucene 原理与代码分析完整版下载
Lucene是一个基于Java的高效的全文检索库.那么什么是全文检索,为什么需要全文检索?目前人们生活中出现的数据总的来说分为两类:结构化数据和非结构化数据.很容易理解,结构化数据是有固定格式和结构的 ...
- R语言︱文本挖掘之中文分词包——Rwordseg包(原理、功能、详解)
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 笔者寄语:与前面的RsowballC分词不同的 ...
- Lucene 的索引文件锁原理
Lucene 的索引文件锁原理 2016/11/24 · IT技术 · lucene 环境 Lucene 6.0.0Java “1.8.0_111”OS Windows 7 Ultimate 线程 ...
- springboot之启动原理解析
前言 SpringBoot为我们做的自动配置,确实方便快捷,但是对于新手来说,如果不大懂SpringBoot内部启动原理,以后难免会吃亏.所以这次博主就跟你们一起一步步揭开SpringBoot的神秘面 ...
- SpringBoot启动原理及相关流程
一.springboot启动原理及相关流程概览 springboot是基于spring的新型的轻量级框架,最厉害的地方当属自动配置.那我们就可以根据启动流程和相关原理来看看,如何实现传奇的自动配置 二 ...
随机推荐
- virtualenv杂记
Linux复制命令: cp sourcedir destdir (如果是复制文件夹,增加参数 -a) Linux重命名命令:mv 旧的名称 新的名称 通过xshell查看虚拟机的配置:通过命令 ...
- Python3进行RSA2加密、解密、签名
1.python3的PyCryptodome库用于密码学,属于对PyCrypto库的扩展 Linux上安装: pip install pycryptodome Windows上安装: pip inst ...
- Java键盘输入的方法
转载:http://blog.csdn.net/u012249177/article/details/49586383 java输入的方法: import java.io.BufferedReader ...
- 题解报告:hdu 1229 还是A+B
题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=1229 Problem Description 读入两个小于10000的正整数A和B,计算A+B.需要注 ...
- 题解报告:hdu 1075 What Are You Talking About
题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=1075 Problem Description Ignatius is so lucky that he ...
- Hibernate3的hbm文件错误引用dtd文件导致项目无法启动问题处理
错误信息: org.hibernate.InvalidMappingException: Could not parse mapping document from resource /***/*** ...
- java数组实现买彩票(阿基老师的打乱排序思想)
package com.wh.array; public class Lottery { public static void main(String[] args) { int[] num=new ...
- 【图片匹配】--- SIFT_Opencv3.1.0_C++_ubuntu
最近在捣鼓图片相似性匹配算法.这里先说一点必要的题外话: 如果是在同一个object不同角度拍摄的多张图片中,使用SIFT可以有不错的效果: 如果是寻找类别相同的图片(可能不是同一object),SI ...
- AJPFX:学习JAVA程序员两个必会的冒泡和选择排序
* 数组排序(冒泡排序)* * 冒泡排序: 相邻元素两两比较,大的往后放,第一次完毕,最大值出现在了最大索引处* * 选择排序 : 从0索引开始,依次和后面元素比较,小的往前放,第一次完毕,最小值出现 ...
- 用css制作圆环图表 (vue,sass)
效果图: 思路 :在一个容器里再放两个矩形,每个矩形都占一半,给这两个矩形都设置溢出隐藏,当去旋转矩形里面的圆形的时候,溢出部分就被隐藏掉了,这样就可以达到想要的效果. 代码-html: <di ...