Analyzer原理

【常用分词器】

SimpleAnalyzer
StopAnalyzer
WhitespaceAnalyzer
StandardAnalyze

【TokenStream】

she is a student ==〉TokenStream

TokenStream有2个实现类。Tokenizer、TokenFilter

1) Tokenizer

将数据进行分割形成一定的语汇(所谓语汇是指一个一个独立的词语。)。最终结果将形成TokenStream。

2) TokenFilter

按照规则对语汇进行过滤。如：StopFilter可以对停用词进行过滤。

3) 执行过程

【存储方式】

【应用TokenStream】

     /**

      * 使用TokenStream进行分词

      * @param str

      * @param analyzer

      */

     public static void displayTokenStream(String str, Analyzer analyzer){

         try {

             //通过Analayer获取TokenStream

             //toenStream("域名称或文件名"，输入流对象)

             TokenStream stream = analyzer.tokenStream("content", new StringReader(str));

             //向流中添加一个属性

             //容器，存储每次分词所对应的语汇内容

             CharTermAttribute charAttr = stream.addAttribute(CharTermAttribute.class);

             //通过循环语句读取语汇的内容

             while(stream.incrementToken()){

                 System.out.print("[" + charAttr + "]  ");

             }

             System.out.println();

         } catch (IOException e) {

             e.printStackTrace();

         }

     }

     private Version version = Version.LUCENE_35;

     /**

      * 测试TokenStream(英文内容)

      */

     @Test

     public void test01(){

         String str = "I'm come from Hanlin，I love Hanlin";

         System.out.println("str = " + str);

         System.out.println("====================================");

         //创建Analyzer对象

         Analyzer a1 = new SimpleAnalyzer(version);

         Analyzer a2 = new StopAnalyzer(version);

         Analyzer a3 = new WhitespaceAnalyzer(version);

         Analyzer a4 = new StandardAnalyzer(version);

         //测试TokenStream

         AnalyzerUtil.displayTokenStream(str, a1);

         AnalyzerUtil.displayTokenStream(str, a2);

         AnalyzerUtil.displayTokenStream(str, a3);

         AnalyzerUtil.displayTokenStream(str, a4);

     }

     /**

      * 测试TokenStream(中文内容)

      */

     @Test

     public void test02(){

         String str = "我来自翰林，我爱翰林";

         System.out.println("str = " + str);

         System.out.println("====================================");

         //创建Analyzer对象

         Analyzer a1 = new SimpleAnalyzer(version);

         Analyzer a2 = new StopAnalyzer(version);

         Analyzer a3 = new WhitespaceAnalyzer(version);

         Analyzer a4 = new StandardAnalyzer(version);

         //测试TokenStream

         AnalyzerUtil.displayTokenStream(str, a1);

         AnalyzerUtil.displayTokenStream(str, a2);

         AnalyzerUtil.displayTokenStream(str, a3);

         AnalyzerUtil.displayTokenStream(str, a4);

     }

TokenStream可以读取到分词内容.

【Attribute】

     /**

      * 显示语汇的基本属性

      * @param str

      * @param anlyzer

      */

     public static void displayAttributes(String str, Analyzer anlyzer){

         try {

             //获取TokenStream对象

             TokenStream stream = anlyzer.tokenStream("content", new StringReader(str));

             //PositionIncrementAttribute ：存储了语汇之间的位置增量

             //添加PositionIncrementAttribute属性

             PositionIncrementAttribute positionAttr = stream.addAttribute(PositionIncrementAttribute.class);

             //添加CharTermAttrbute

             CharTermAttribute charAttr = stream.addAttribute(CharTermAttribute.class);

             //OffsetAttribute：获取语汇的偏移数据

             OffsetAttribute offsetAttr = stream.addAttribute(OffsetAttribute.class);

             //语汇的分词方式类型（了解）

             TypeAttribute typeAttr = stream.addAttribute(TypeAttribute.class);

             //遍历每一个语汇

             while(stream.incrementToken()){

                 System.out.print(positionAttr.getPositionIncrement() + "、");

                 System.out.print("[" + charAttr + "  : " + offsetAttr.startOffset() + "~" + offsetAttr.endOffset()+ "(" + typeAttr.type()+ "）] " );

             }

             System.out.println();

         } catch (IOException e) {

             e.printStackTrace();

         }

     }

     /**

      * 测试属性的应用

      */

     @Test

     public void test03(){

         String str = "I'm come from Hanlin，I love Hanlin";

         System.out.println("str = " + str);

         System.out.println("====================================");

         //创建Analyzer对象

         Analyzer a1 = new SimpleAnalyzer(version);

         Analyzer a2 = new StopAnalyzer(version);

         Analyzer a3 = new WhitespaceAnalyzer(version);

         Analyzer a4 = new StandardAnalyzer(version);

         //测试TokenStream

         AnalyzerUtil.displayAttributes(str, a1);

         AnalyzerUtil.displayAttributes(str, a2);

         AnalyzerUtil.displayAttributes(str, a3);

         AnalyzerUtil.displayAttributes(str, a4);

     }

FlagsAttribute：标志位属性信息(了解)

PayloadAttribute：负载属性信息(了解)

说明:每一个语汇单元都存在一定的属性.通过Attribute可以获取到相关的语汇信息。

Analyzer原理的更多相关文章

Lucene 工作原理之倒排索引
1.简介倒排索引源于实际应用中需要根据属性的值来查找记录.这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址.由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排 ...
Compiler Theory(编译原理)、词法/语法/AST/中间代码优化在Webshell检测上的应用
catalog . 引论 . 构建一个编译器的相关科学 . 程序设计语言基础 . 一个简单的语法制导翻译器 . 简单表达式的翻译器(源代码示例) . 词法分析 . 生成中间代码 . 词法分析器的实现 ...
LDO稳压器工作原理
LDO稳压器工作原理随着便携式设备(电池供电)在过去十年间的快速增长,像原来的业界标准 LM340 和LM317 这样的稳压器件已经无法满足新的需要.这些稳压器使用NPN 达林顿管,在本文中称其为N ...
IKAnalyzer原理分析
IKAnalyzer原理分析 IKAnalyzer自带的 void org.wltea.analyzer.dic.Dictionary.disableWords(Collection<Strin ...
免费的Lucene 原理与代码分析完整版下载
Lucene是一个基于Java的高效的全文检索库.那么什么是全文检索,为什么需要全文检索?目前人们生活中出现的数据总的来说分为两类:结构化数据和非结构化数据.很容易理解,结构化数据是有固定格式和结构的 ...
R语言︱文本挖掘之中文分词包——Rwordseg包(原理、功能、详解)
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 笔者寄语:与前面的RsowballC分词不同的 ...
Lucene 的索引文件锁原理
Lucene 的索引文件锁原理 2016/11/24 · IT技术 · lucene 环境 Lucene 6.0.0Java “1.8.0_111”OS Windows 7 Ultimate 线程 ...
springboot之启动原理解析
前言 SpringBoot为我们做的自动配置,确实方便快捷,但是对于新手来说,如果不大懂SpringBoot内部启动原理,以后难免会吃亏.所以这次博主就跟你们一起一步步揭开SpringBoot的神秘面 ...
SpringBoot启动原理及相关流程
一.springboot启动原理及相关流程概览 springboot是基于spring的新型的轻量级框架,最厉害的地方当属自动配置.那我们就可以根据启动流程和相关原理来看看,如何实现传奇的自动配置二 ...

随机推荐

《windows核心编程系列》五谈谈线程基础
线程基础与前面介绍的进程一样,线程也有两部分组成.一个是线程内核对象.它是一个数据结构,操作系统用它来管理线程以及用它来存储线程的一些统计信息.另一个是线程栈,用于维护线程执行时所需的所有函数参数和 ...
Drawable新属性
mSelectEndorseReasonTv.setCompoundDrawablesWithIntrinsicBounds(0, 0, R.drawable.toup, 0);新属性替换: Draw ...
暴力 BestCoder Round #46 1001 YJC tricks time
题目传送门 /* 暴力:模拟枚举每一个时间的度数详细解释:http://blog.csdn.net/enjoying_science/article/details/46759085 期末考结束第一 ...
Create the first sql server 2016 mobile report；创建第一个 sqlserver 2016 Mobile report
在微软收购了datazen之后,sqlserver2016 集成了mobilereport,mobile report 基于html5,兼容各类主流浏览器,之前ssrs2008 R2中很多chart类 ...
Matlab实现Butterworth滤波器分类：图像处理 2014-06-02 00:05 527人阅读评论(0) 收藏
下面是用Matlab实现的Butterworth高通.低通滤波器. clc;clear all;close all; I=imread('cameraman.tif'); subplot(3,2,1) ...
Android 线程池系列教程(3) 创建线程池
Creating a Manager for Multiple Threads 上一课下一课 1.This lesson teaches you to Define the Thread Pool ...
【原】无脑操作：Eclipse + Maven + jFinal + MariaDB 环境搭建
一.开发环境 1.windows 7 企业版 2.Eclipse IDE for Enterprise Java Developers Version: 2019-03 (4.11.0) 3.JDK ...
actuator服务实战
1. actuator服务实战 1.1. 前言 actuator默认集成了很多端点查看,这里我会挑选也用到可能性大些的 1.2. Endpoints 1.2.1. 使用方式开启服务后,直接访问:lo ...
老式浏览器支持html5和css3
在IE页面的head标签里面加入 <!-[if IE]> <script src="http://html5shiv.googlecode.com/svn/trunk/ ...
NavigationView的使用
代码已经分享至github:https://github.com/YanYoJun/NavigationDemo 转载请注明原文链接:http://www.cnblogs.com/yanyojun/p ...