Lucene源码解析--Analyzer之Tokenizer

Analyzer包含两个核心组件，Tokenizer以及TokenFilter。两者的区别在于，前者在字符级别处理流，而后者则在词语级别处理流。Tokenizer是Analyzer的第一步，其构造函数接收一个Reader作为参数，而TokenFilter则是一个类似的拦截器，其参数可以是TokenStream、Tokenizer。

Tokenizer的类结构图：

各类的介绍：

1.Tokenizer

输入为Reader的TokenStream，其子类必须实现incrementToken()函数，并且在设置属性(attributes) 必须调用AttributeSource中的clearAttributes()方法。

2.CharTokenizer

一个简单的，基于字符（character）的tokenizers。

protected abstract boolean isTokenChar(int c);//判断是否应该加入token

protected int normalize(int c) {

return c;

}//对每一个即将加入到token的字符进行处理，默认不进行任何操作，直接返回（

其子类可能使用此方法，比如lowercase tokens

）

3.LetterTokenizer

一个将文本在非字母的地方进行拆分的tokenizer，对于亚洲语系来说并不适合，因为其

大部分单词并不是以空格划分的。

protected boolean isTokenChar(int c) {

return Character.isLetter(c);//收集符合要求的字符

}

4.LowerCaseTokenizer

一个将文本在非字母的地方拆分并转换成小写的Tokenizer，其作用类似于LetterTokenizer与LowerCaseFilter的组合。

protected int normalize(int c) {

return Character.toLowerCase(c);//字母转换成小写

}

5.WhitespaceTokenizer

一个在空白处对文本进行拆分的tokenizer。

protected boolean isTokenChar(int c) {

return !Character.isWhitespace(c);//判断字符是否为空白

}

6.KeywordTokenizer

将整个输入作为一个分词的tokenizer。

Lucene源码解析--Analyzer之Tokenizer的更多相关文章

solr&lucene3.6.0源码解析（一）
本文作为系列的第一篇,主要描述的是solr3.6.0开发环境的搭建首先我们需要从官方网站下载solr的相关文件,下载地址为http://archive.apache.org/dist/luc ...
solr&lucene3.6.0源码解析（四）
本文要描述的是solr的查询插件,该查询插件目的用于生成Lucene的查询Query,类似于查询条件表达式,与solr查询插件相关UML类图如下: 如果我们强行将上面的类图纳入某种设计模式语言的话,本 ...
solr&lucene3.6.0源码解析（三）
solr索引操作(包括新增更新删除提交合并等)相关UML图如下从上面的类图我们可以发现,其中体现了工厂方法模式及责任链模式的运用 UpdateRequestProcessor相当于责任链模式 ...
细说Lucene源码(一)：索引文件锁机制
大家都知道,在多线程或多进程的环境中,对统一资源的访问需要特别小心,特别是在写资源时,如果不加锁,将会导致很多严重的后果,Lucene的索引也是如此,lucene对索引的读写分为IndexReader ...
Lucene源码
看Lucene源码必须知道的基本概念终于有时间总结点Lucene,虽然是大周末的,已经感觉是对自己的奖励,毕竟只是喜欢,现在的工作中用不到的.自己看源码比较快,看英文原著的技术书也很快.都和语言有很 ...
渣渣菜鸡的 ElasticSearch 源码解析 —— 启动流程（上）
关注我转载请务必注明原创地址为:http://www.54tianzhisheng.cn/2018/08/11/es-code02/ 前提上篇文章写了 ElasticSearch 源码解析 -- ...
ElasticSearch源码解析（五）：排序（评分公式）
ElasticSearch源码解析(五):排序(评分公式) 转载自:http://blog.csdn.net/molong1208/article/details/50623948 一.目的一个 ...
Java生鲜电商平台-电商中海量搜索ElasticSearch架构设计实战与源码解析
Java生鲜电商平台-电商中海量搜索ElasticSearch架构设计实战与源码解析生鲜电商搜索引擎的特点众所周知,标准的搜索引擎主要分成三个大的部分,第一步是爬虫系统,第二步是数据分析,第三步才 ...
iOS即时通讯之CocoaAsyncSocket源码解析四
原文前言: 本文为CocoaAsyncSocket源码系列中第二篇:Read篇,将重点涉及该框架是如何利用缓冲区对数据进行读取.以及各种情况下的数据包处理,其中还包括普通的.和基于TLS的不同读取操 ...

随机推荐

java: InputStreamReader将字节的输入流变成字符的输入流，OutputStreamWriter将字符的输出流变成字节的输出流
InputStreamReader:将字节的输入流变成字符的输入流, OutputStreamWriter:将字符的输出流变成字节的输出流 //将缓冲区的内容读取,可以一次读取 //可以接收键盘的输入 ...
算法练习4---冒泡排序java版
冒泡排序的基本思想:在要排序的一组数中,对当前还未排好序的范围内的全部数,自上而下对相邻的两个数依次进行比较和调整,让较大的数往下沉,较小的往上冒.即:每当两相邻的数比较后发现它们的排序与排序要求相反 ...
HDU 1052 贪心+dp
http://acm.hdu.edu.cn/showproblem.php?pid=1052 Tian Ji -- The Horse Racing Time Limit: 2000/1000 MS ...
tlflearn 编码解码器 ——数据降维用
# -*- coding: utf-8 -*- """ Auto Encoder Example. Using an auto encoder on MNIST hand ...
常用服务搭建（nfs/ftp/samba)
一. NFS1. NFS简介NFS全称是network file systemNFS允许一个系统在网络上与他人共享目录和文件.通过使用NFS,用户和程序可以像访问本地文件一样访问远端系统上的文件. 假 ...
Sunday算法
Sunday算法是Daniel M.Sunday于1990年提出的字符串模式匹配.其核心思想是:在匹配过程中,模式串发现不匹配时,算法能跳过尽可能多的字符以进行下一步的匹配,从而提高了匹配效率 ...
hdu-2544-最短路(dijkstra算法模板)
题目链接题意很清晰,入门级题目,适合各种模板,可用dijkstra, floyd, Bellman-ford, spfa Dijkstra链接 Floyd链接 Bellman-Ford链接 SPFA ...
linux下的制作静态库并使用它
静态库所要用的源文件文件 fred.c #include <stdio.h> void fred(int argc) { printf("void fred(i ...
mysql之 Innobackupex（全备+增量）备份恢复
MySQL的热备(物理备份)可以采取全备加增量备份的方式来减轻数据库I/O压力及系统资源的占用.增量备份主要是以全备或增量备份为基础,备份那些变更过的页面.其备份的原理是基于一个不断增长的LSN序列, ...
微信无法跳转appstore总结--应用宝微下载申请
以前是有方法,可以实现微信下跳转appstore的. 大概就是把url改为:http://mp.weixin.qq.com/mp/redirect?url="跳转url"(可编码也 ...

Lucene源码解析--Analyzer之Tokenizer

Lucene源码解析--Analyzer之Tokenizer的更多相关文章

随机推荐

热门专题