Analyzer原理

【常用分词器】

SimpleAnalyzer
StopAnalyzer
WhitespaceAnalyzer
StandardAnalyze

【TokenStream】

she is a student ==〉TokenStream

TokenStream有2个实现类。Tokenizer、TokenFilter

1) Tokenizer

将数据进行分割形成一定的语汇(所谓语汇是指一个一个独立的词语。)。最终结果将形成TokenStream。

2) TokenFilter

按照规则对语汇进行过滤。如：StopFilter可以对停用词进行过滤。

3) 执行过程

【存储方式】

【应用TokenStream】

     /**

      * 使用TokenStream进行分词

      * @param str

      * @param analyzer

      */

     public static void displayTokenStream(String str, Analyzer analyzer){

         try {

             //通过Analayer获取TokenStream

             //toenStream("域名称或文件名"，输入流对象)

             TokenStream stream = analyzer.tokenStream("content", new StringReader(str));

             //向流中添加一个属性

             //容器，存储每次分词所对应的语汇内容

             CharTermAttribute charAttr = stream.addAttribute(CharTermAttribute.class);

             //通过循环语句读取语汇的内容

             while(stream.incrementToken()){

                 System.out.print("[" + charAttr + "]  ");

             }

             System.out.println();

         } catch (IOException e) {

             e.printStackTrace();

         }

     }

     private Version version = Version.LUCENE_35;

     /**

      * 测试TokenStream(英文内容)

      */

     @Test

     public void test01(){

         String str = "I'm come from Hanlin，I love Hanlin";

         System.out.println("str = " + str);

         System.out.println("====================================");

         //创建Analyzer对象

         Analyzer a1 = new SimpleAnalyzer(version);

         Analyzer a2 = new StopAnalyzer(version);

         Analyzer a3 = new WhitespaceAnalyzer(version);

         Analyzer a4 = new StandardAnalyzer(version);

         //测试TokenStream

         AnalyzerUtil.displayTokenStream(str, a1);

         AnalyzerUtil.displayTokenStream(str, a2);

         AnalyzerUtil.displayTokenStream(str, a3);

         AnalyzerUtil.displayTokenStream(str, a4);

     }

     /**

      * 测试TokenStream(中文内容)

      */

     @Test

     public void test02(){

         String str = "我来自翰林，我爱翰林";

         System.out.println("str = " + str);

         System.out.println("====================================");

         //创建Analyzer对象

         Analyzer a1 = new SimpleAnalyzer(version);

         Analyzer a2 = new StopAnalyzer(version);

         Analyzer a3 = new WhitespaceAnalyzer(version);

         Analyzer a4 = new StandardAnalyzer(version);

         //测试TokenStream

         AnalyzerUtil.displayTokenStream(str, a1);

         AnalyzerUtil.displayTokenStream(str, a2);

         AnalyzerUtil.displayTokenStream(str, a3);

         AnalyzerUtil.displayTokenStream(str, a4);

     }

TokenStream可以读取到分词内容.

【Attribute】

     /**

      * 显示语汇的基本属性

      * @param str

      * @param anlyzer

      */

     public static void displayAttributes(String str, Analyzer anlyzer){

         try {

             //获取TokenStream对象

             TokenStream stream = anlyzer.tokenStream("content", new StringReader(str));

             //PositionIncrementAttribute ：存储了语汇之间的位置增量

             //添加PositionIncrementAttribute属性

             PositionIncrementAttribute positionAttr = stream.addAttribute(PositionIncrementAttribute.class);

             //添加CharTermAttrbute

             CharTermAttribute charAttr = stream.addAttribute(CharTermAttribute.class);

             //OffsetAttribute：获取语汇的偏移数据

             OffsetAttribute offsetAttr = stream.addAttribute(OffsetAttribute.class);

             //语汇的分词方式类型（了解）

             TypeAttribute typeAttr = stream.addAttribute(TypeAttribute.class);

             //遍历每一个语汇

             while(stream.incrementToken()){

                 System.out.print(positionAttr.getPositionIncrement() + "、");

                 System.out.print("[" + charAttr + "  : " + offsetAttr.startOffset() + "~" + offsetAttr.endOffset()+ "(" + typeAttr.type()+ "）] " );

             }

             System.out.println();

         } catch (IOException e) {

             e.printStackTrace();

         }

     }

     /**

      * 测试属性的应用

      */

     @Test

     public void test03(){

         String str = "I'm come from Hanlin，I love Hanlin";

         System.out.println("str = " + str);

         System.out.println("====================================");

         //创建Analyzer对象

         Analyzer a1 = new SimpleAnalyzer(version);

         Analyzer a2 = new StopAnalyzer(version);

         Analyzer a3 = new WhitespaceAnalyzer(version);

         Analyzer a4 = new StandardAnalyzer(version);

         //测试TokenStream

         AnalyzerUtil.displayAttributes(str, a1);

         AnalyzerUtil.displayAttributes(str, a2);

         AnalyzerUtil.displayAttributes(str, a3);

         AnalyzerUtil.displayAttributes(str, a4);

     }

FlagsAttribute：标志位属性信息(了解)

PayloadAttribute：负载属性信息(了解)

说明:每一个语汇单元都存在一定的属性.通过Attribute可以获取到相关的语汇信息。

Analyzer原理的更多相关文章

Lucene 工作原理之倒排索引
1.简介倒排索引源于实际应用中需要根据属性的值来查找记录.这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址.由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排 ...
Compiler Theory(编译原理)、词法/语法/AST/中间代码优化在Webshell检测上的应用
catalog . 引论 . 构建一个编译器的相关科学 . 程序设计语言基础 . 一个简单的语法制导翻译器 . 简单表达式的翻译器(源代码示例) . 词法分析 . 生成中间代码 . 词法分析器的实现 ...
LDO稳压器工作原理
LDO稳压器工作原理随着便携式设备(电池供电)在过去十年间的快速增长,像原来的业界标准 LM340 和LM317 这样的稳压器件已经无法满足新的需要.这些稳压器使用NPN 达林顿管,在本文中称其为N ...
IKAnalyzer原理分析
IKAnalyzer原理分析 IKAnalyzer自带的 void org.wltea.analyzer.dic.Dictionary.disableWords(Collection<Strin ...
免费的Lucene 原理与代码分析完整版下载
Lucene是一个基于Java的高效的全文检索库.那么什么是全文检索,为什么需要全文检索?目前人们生活中出现的数据总的来说分为两类:结构化数据和非结构化数据.很容易理解,结构化数据是有固定格式和结构的 ...
R语言︱文本挖掘之中文分词包——Rwordseg包(原理、功能、详解)
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 笔者寄语:与前面的RsowballC分词不同的 ...
Lucene 的索引文件锁原理
Lucene 的索引文件锁原理 2016/11/24 · IT技术 · lucene 环境 Lucene 6.0.0Java “1.8.0_111”OS Windows 7 Ultimate 线程 ...
springboot之启动原理解析
前言 SpringBoot为我们做的自动配置,确实方便快捷,但是对于新手来说,如果不大懂SpringBoot内部启动原理,以后难免会吃亏.所以这次博主就跟你们一起一步步揭开SpringBoot的神秘面 ...
SpringBoot启动原理及相关流程
一.springboot启动原理及相关流程概览 springboot是基于spring的新型的轻量级框架,最厉害的地方当属自动配置.那我们就可以根据启动流程和相关原理来看看,如何实现传奇的自动配置二 ...

随机推荐

hdu 1025 Constructing Roads In JGShining's Kingdom
本题明白题意以后,就可以看出是让求最长上升子序列,但是不知道最长上升子序列的算法,用了很多YY的方法去做,最后还是超时, 因为普通算法时间复杂度为O(n*2),去搜了题解,学习了一下,感觉不错,拿出来 ...
LightOj 1197 Help Hanzo （区间素数筛选）
题目大意: 给出T个实例,T<=200,给出[a,b]区间,问这个区间里面有多少个素数?(1 ≤ a ≤ b < 231, b - a ≤ 100000) 解题思路: 由于a,b的取值范围 ...
Android 内存溢出处理方案
转自 : http://www.cnblogs.com/hello-ruby/archive/2013/04/19/3031098.html 首先我们来看看android内存溢出的原因,有可能是: 由 ...
jmeter（十六）Jmeter之Bean shell使用(二)
上一篇Jmeter之Bean shell使用(一)简单介绍了下Jmeter中的Bean shell,本文是对上文的一个补充,主要总结下常用的几种场景和方法,相信这些基本可以涵盖大部分的需求.本节内容如 ...
AJPFX学习Java函数知识总结
函数:为了提高代码的复用性,可以将其定义成一个单独的功能,该功能的体现就是java中的函数.函数就是体现之一. java中的函数的定义格式: 修饰符返回值类型函数名(参数类型形 ...
CF940D Alena And The Heater
思路: 模拟. 实现: #include <bits/stdc++.h> using namespace std; const int INF = 1e9; ], n; string b; ...
hihocoder offer收割编程练习赛12 B 一面砖墙
思路: 就是求哪个长度出现的次数最多. 实现: #include <iostream> #include <cstdio> #include <algorithm> ...
hihocoder offer收割编程练习赛11 D 排队接水
思路: 莫队算法+树状数组. 莫队算法的基本思想是对大量要查询的区间进行离线处理,按照一定的顺序计算,来降低复杂度.概括来说,我们在知道了[l, r]的解,并且可以通过一个较低的复杂度推出[l - 1 ...
java visualVM 使用
下载jdk 一般自带 jvisualvm.exe ,双击即可下载地址 https://visualvm.github.io/pluginscenters.html 使用方法:
CentOS7 Install Shipyard
# 采集木jj 原文:http://www.cnblogs.com/caoguo/p/5735189.html # CentOS7 Install Shipyard# yum install dock ...