lucene分词器中的Analyzer,TokenStream, Tokenizer, TokenFilter

分词器的核心类：

Analyzer:分词器

TokenStream:
分词器做优点理之后得到的一个流。这个流中存储了分词的各种信息，能够通过TokenStream有效的获取到分词单元。

下面是把文件流转换成分词流（TokenStream）的过程

首先，通过Tokenizer来进行分词，不同分词器有着不同的Tokenzier，Tokenzier分完词后，通过TokenFilter对已经分好词的数据进行过滤，比方停止词。过滤完之后，把全部的数据组合成一个TokenStream；下面这图就是把一个reader转换成TokenStream：

这个TokenStream中存有一些属性，这些属性会来标识这个分词流的元素。

在这个流里有非常多属性。

以下截了lucene4.10.1源代码中的图：

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvaHU5NDgxNjI5OTk=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center" alt="">

当中有3个重要的属性，CharTermAttribute（保存相印的词汇），OffsetAttribute（保存各个词汇的偏移量）。PositionIncrementAttribute（保存各个词与词之间的位置增量，假设为0。能够做同义词搜索）。

是由这3个属性来控制这些分词信息

Tokenzier
主要负责接收Reader。将Reader进行分词操作。有例如以下一些实现类

TokenFilter 将分词的出来的单元，进行各种各样的过滤。

代码例如以下：

<span style="font-size:14px;">package hhc;

import java.io.IOException;

import java.io.StringReader;

import org.apache.lucene.analysis.Analyzer;

import org.apache.lucene.analysis.TokenStream;

import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;

import org.apache.lucene.analysis.tokenattributes.OffsetAttribute;

import org.apache.lucene.analysis.tokenattributes.PositionIncrementAttribute;

import org.apache.lucene.analysis.tokenattributes.TypeAttribute;

public class AnalyzerUtil {

	/**

	 * 输出字符分词信息

	 *

	 * @param str

	 * @param a

	 */

	public static void displayAllToken(String str, Analyzer a) {

		try {

			// 全部的分词器都必须含有分词流

			TokenStream stream = a.tokenStream("content", new StringReader(str));// 放回一个TokenStream;

			/**

			 * 创建一个属性，这个属性会加入到流里。随着这个TokenStream流添加

			 * 这个属性中保存中全部的分词信息

			 */

			CharTermAttribute cta=stream.addAttribute(CharTermAttribute.class);

			//位置增量的属性，存储词之间的距离

			PositionIncrementAttribute pia = stream.addAttribute(PositionIncrementAttribute.class);

			//储存每一个词直接的偏移量

			OffsetAttribute oa = stream.addAttribute(OffsetAttribute.class);

			//使用的每一个分词器直接的类型信息

			TypeAttribute ta = stream.addAttribute(TypeAttribute.class);

			for (; stream.incrementToken();) {

				System.out.print(pia.getPositionIncrement()+":");

				System.out.print(cta+":["+oa.startOffset()+"-"+oa.endOffset()+"]-->"+ta.type()+"\n");

			}

			System.out.println();

		} catch (IOException e) {

			// TODO Auto-generated catch block

			e.printStackTrace();

		}

	}

}

</span>

測试：

<span style="font-size:14px;">	@Test

	public void hhcTest(){

		Analyzer a1 =new StandardAnalyzer(Version.LUCENE_35);

		Analyzer a2 =new StopAnalyzer(Version.LUCENE_35);

		Analyzer a3 =new SimpleAnalyzer(Version.LUCENE_35);

		Analyzer a4 =new WhitespaceAnalyzer(Version.LUCENE_35);

		String txt ="how are you think you";

		AnalyzerUtil.displayAllToken(txt, a1);

		AnalyzerUtil.displayAllToken(txt, a2);

		AnalyzerUtil.displayAllToken(txt, a3);

		AnalyzerUtil.displayAllToken(txt, a4);

	}</span>

lucene分词器中的Analyzer,TokenStream, Tokenizer, TokenFilter的更多相关文章

Lucene学习-深入Lucene分词器,TokenStream获取分词详细信息
Lucene学习-深入Lucene分词器,TokenStream获取分词详细信息在此回复牛妞的关于程序中分词器的问题,其实可以直接很简单的在词库中配置就好了,Lucene中分词的所有信息我们都可以从 ...
Lucene系列三：Lucene分词器详解、实现自己的一个分词器
一.Lucene分词器详解 1. Lucene-分词器API (1)org.apache.lucene.analysi.Analyzer 分析器,分词器组件的核心API,它的职责:构建真正对文本进行分 ...
学习笔记（三）--Lucene分词器详解
Lucene-分词器API org.apache.lucene.analysi.Analyzer 分析器,分词器组件的核心API,它的职责:构建真正对文本进行分词处理的TokenStream(分词处理 ...
Lucene分词器
Lucene分析器的基类为Analyzer,Analyzer包含两个核心组件:Tokenizer和 TokenFilter.自定义分析器必须实现Analyzer类的抽象方法createComponen ...
lucene分词器与搜索
一.分词器 lucene针对不同的语言和虚伪提供了许多分词器,我们可以针对应用的不同的需求使用不同的分词器进行分词.我们需要注意的是在创建索引时使用的分词器与搜索时使用的分词器要保持一致.否则搜索的结 ...
lucene 分词器
分词器作用:切分关键词的. 在什么地方使用到了:在建立索引和搜索时. 原文:An IndexWriter creates and maintains an index. 1,切分: An Index ...
Lucene中TokenStream,Tokenizer,TokenFilter,TokenStreamComponents与Analyzer
TokenStream extends AttributeSource implements Closeable: incrementToken,end,reset,close Tokenizer直接 ...
Lucene.net(4.8.0) 学习问题记录二: 分词器Analyzer中的TokenStream和AttributeSource
前言:目前自己在做使用Lucene.net和PanGu分词实现全文检索的工作,不过自己是把别人做好的项目进行迁移.因为项目整体要迁移到ASP.NET Core 2.0版本,而Lucene使用的版本是3 ...
Lucene.net(4.8.0)+PanGu分词器问题记录一:分词器Analyzer的构造和内部成员ReuseStategy
前言:目前自己在做使用Lucene.net和PanGu分词实现全文检索的工作,不过自己是把别人做好的项目进行迁移.因为项目整体要迁移到ASP.NET Core 2.0版本,而Lucene使用的版本是3 ...

随机推荐

【转】利用ScriptManager实现Javascript调用WebService中的方法
原文发布时间为:2009-07-01 -- 来源于本人的百度文章 [由搬家工具导入] 前台调用后台方法，或者后台调用前台方法。ScriptManager实现开发过程中，总想在前台直接调用后台的met ...
bzoj 2115 [Wc2011] Xor 路径最大异或和线性基
题目链接题意给定一个 \(n(n\le 50000)\) 个点 \(m(m\le 100000)\) 条边的无向图,每条边上有一个权值.请你求一条从 \(1\)到\(n\)的路径,使得路径上的边的 ...
Push pull, open drain circuit, pull up, pull down resistor
Push pull 就以下面這個電路來說, 因為沒有 pull up resistor, 所以 output voltage 由 low 往 high 的速度會較快. 有兩個電晶體,一個on,一個 ...
【转载】SQL Server 2008 R2 使用的端口解析
转载博客:http://www.cnblogs.com/studyzy/archive/2009/11/30/1614139.html SQL Server在安装到服务器上后,出于服务器安全的需要,所 ...
GIT 的常规操作
GIT 的常规操作常规操作也是我自己平时常用的几个命令, 学自于 pro git 这本书中 git 配置文件 git的配置文件位置针对所有用户:/etc/gitconfig 针对当前用户: -/. ...
ansible 2.7.1 快速开始
refer to 官方手册 https://docs.ansible.com/ansible/latest/modules/modules_by_category.html refer to 中文手册 ...
BitMap与RoaringBitmap、JavaEWAH
本文主要介绍BitMap的算法思想,以及开源工具类JavaEWAH.RoaringBitmap的简单用法. 一.BitMap 介绍 BitMap使用bit位,来标记元素对应的Value.该算法能够节省 ...
JLOI2018 日志
JLOI2018 今年有幸参加吉林省的省选,考过之后在这里写一下总结和感受. DAY1: t1(chess):首先看到题目,第一想法是暴力,上来直接写了暴力,枚举所有的情况,再在这些情况里找到差值最大 ...
Tallest Cow
题目描述 FJ's N (1 ≤ N ≤ 10,000) cows conveniently indexed 1..N are standing in a line. Each cow has a p ...
List与set
1,List与set的区别? List:元素是有序的,元素可以重复,因为集合体系有索引 set:元素是无序的,元素不可以重复,集合体系没有索引 2,list里面特有的方法: 在制定的位置添加元素add ...

lucene分词器中的Analyzer,TokenStream, Tokenizer, TokenFilter

lucene分词器中的Analyzer,TokenStream, Tokenizer, TokenFilter的更多相关文章

随机推荐

热门专题