lucene定义自己的分词器将其分成单个字符

问题描写叙述：将一句话拆分成单个字符。而且去掉空格。

package com.mylucene;

import java.io.IOException;

import java.io.Reader;

import org.apache.lucene.analysis.Tokenizer;

import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;

import org.apache.lucene.analysis.tokenattributes.OffsetAttribute;

import org.apache.lucene.util.AttributeSource.AttributeFactory;

public class SpiltChar extends Tokenizer {

	 public SpiltChar(AttributeFactory factory, Reader input) {

		super(factory, input);

		// TODO Auto-generated constructor stub

	}

	public SpiltChar(Reader input) {

	      super(input);

	    }

	    private int offset = 0, bufferIndex=0, dataLen=0;

	    private final static int MAX_WORD_LEN = 255;

	    private final static int IO_BUFFER_SIZE = 1024;

	    private final char[] buffer = new char[MAX_WORD_LEN];

	    private final char[] ioBuffer = new char[IO_BUFFER_SIZE];

	    private int length;

	    private int start;

	    private final CharTermAttribute termAtt = addAttribute(CharTermAttribute.class);

	    private final OffsetAttribute offsetAtt = addAttribute(OffsetAttribute.class);

	    private final void push(char c) {

	        if (length == 0) start = offset-1;            // start of token

	        buffer[length++] = Character.toLowerCase(c);  // buffer it

	    }

	    private final boolean flush() {

	        if (length>0) {

	            //System.out.println(new String(buffer, 0,

	            //length));

	          termAtt.copyBuffer(buffer, 0, length);

	          offsetAtt.setOffset(correctOffset(start), correctOffset(start+length));

	          return true;

	        }

	        else

	            return false;

	    }

	    @Override

	    public boolean incrementToken() throws IOException {

	        clearAttributes();

	        length = 0;

	        start = offset;

	        while (true) {

	            final char c;

	            offset++;

	            if (bufferIndex >= dataLen) {

	                dataLen = input.read(ioBuffer);

	                bufferIndex = 0;

	            }

	            if (dataLen == -1) {

	              offset--;

	              return flush();

	            } else

	                c = ioBuffer[bufferIndex++];

	            switch(Character.getType(c)) {

	            case Character.DECIMAL_DIGIT_NUMBER://注意此部分只是滤一些熟悉或者字母

	            case Character.LOWERCASE_LETTER://注意此部分

	            case Character.UPPERCASE_LETTER://注意此部分

//	                push(c);

//	                if (length == MAX_WORD_LEN) return flush();

//	                break;

	            case Character.OTHER_LETTER:

	                if (length>0) {

	                    bufferIndex--;

	                    offset--;

	                    return flush();

	                }

	                push(c);

	                return flush();

	            default:

	                if (length>0) return flush();

		                break;

	            }

	        }

	    }

	    @Override

	    public final void end() {

	      // set final offset

	      final int finalOffset = correctOffset(offset);

	      this.offsetAtt.setOffset(finalOffset, finalOffset);

	    }

	    @Override

	    public void reset() throws IOException {

	      super.reset();

	      offset = bufferIndex = dataLen = 0;

	    }

}

定义自己的分词器类：

package com.mylucene;

import java.io.Reader;

import org.apache.lucene.analysis.Analyzer;

import org.apache.lucene.analysis.Tokenizer;

/**

 * 单字切分

 * **/

public class SpiltCharAnalyzer extends Analyzer {

	@Override

	protected TokenStreamComponents createComponents(String arg0, Reader arg1) {

		Tokenizer token=new SpiltChar(arg1);

		return new TokenStreamComponents(token);

	}

}

lucene定义自己的分词器将其分成单个字符的更多相关文章

Lucene 03 - 什么是分词器 + 使用IK中文分词器
目录 1 分词器概述 1.1 分词器简介 1.2 分词器的使用 1.3 中文分词器 1.3.1 中文分词器简介 1.3.2 Lucene提供的中文分词器 1.3.3 第三方中文分词器 2 IK分词器的 ...
Lucene全文搜索之分词器：使用IK Analyzer中文分词器（修改IK Analyzer源码使其支持lucene5.5.x）
注意:基于lucene5.5.x版本一.简单介绍下IK Analyzer IK Analyzer是linliangyi2007的作品,再此表示感谢,他的博客地址:http://linliangyi2 ...
Net Core使用Lucene.Net和盘古分词器实现全文检索
Lucene.net Lucene.net是Lucene的.net移植版本,是一个开源的全文检索引擎开发包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎, ...
Lucene介绍及简单入门案例（集成ik分词器）
介绍 Lucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,但它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和 ...
lucene分词器与搜索
一.分词器 lucene针对不同的语言和虚伪提供了许多分词器,我们可以针对应用的不同的需求使用不同的分词器进行分词.我们需要注意的是在创建索引时使用的分词器与搜索时使用的分词器要保持一致.否则搜索的结 ...
Lucene 6.0下使用IK分词器
Lucene 6.0使用IK分词器需要修改修改IKAnalyzer和IKTokenizer. 使用时先新建一个MyIKTokenizer类,一个MyIkAnalyzer类: MyIKTokenizer ...
学习笔记（三）--Lucene分词器详解
Lucene-分词器API org.apache.lucene.analysi.Analyzer 分析器,分词器组件的核心API,它的职责:构建真正对文本进行分词处理的TokenStream(分词处理 ...
Lucene系列四：Lucene提供的分词器、IKAnalyze中文分词器集成、扩展 IKAnalyzer的停用词和新词
一.Lucene提供的分词器StandardAnalyzer和SmartChineseAnalyzer 1.新建一个测试Lucene提供的分词器的maven项目LuceneAnalyzer 2. 在p ...
Lucene系列三：Lucene分词器详解、实现自己的一个分词器
一.Lucene分词器详解 1. Lucene-分词器API (1)org.apache.lucene.analysi.Analyzer 分析器,分词器组件的核心API,它的职责:构建真正对文本进行分 ...

随机推荐

C++箴言：理解 new-handler的行为
当 operator new 不能满足一个内存分配请求时,它抛出一个 exception(异常).很久以前,他返回一个 null pointer(空指针),而一些比较老的编译器还在这样做.你依然能达到 ...
windows开机启动nginx
1 .http://www.cuplayer.com/player/PlayerCode/Nginx/2014/0919/1577.html 2. http://www.cnblogs.com/xus ...
sqlserver 编辑、修改字段说明（备注） sp_addextendedproperty
语法 sp_addextendedproperty [ @name = ] { 'property_name' } [ , [ @value = ] { 'value' } [ , [ @leve ...
How to use pagination in Magento
classYour_Module_Block_Entityname_ListextendsMage_Core_Block_Template { protected function _construc ...
和Eclipse一起走过的日子
一见钟情大二上学期,第一次接触java Web.老师为了帮助我们从底层理解java Web的执行环境,要求我们不能使用不论什么IDE,仅仅能用记事本. 好吧,老师也是为了咱好.简单的一个 ...
Neutron数据库同步错误 NotImplementedError: No support for ALTER of constraints in SQLite dialect
错误信息 root@controller:~# su -s /bin/sh -c "neutron-db-manage --config-file /etc/neutron/neutron. ...
JavaScript 字符串实用常用操作
字符串截取1. substring()xString.substring(start,end)substring()是最常用到的字符串截取方法,它可以接收两个参数(参数不能为负值),分别是要截取的开始 ...
连接远程hbase长时间等待问题
确保本地保存了远程主机名: 保存远程hosts
自定义构造方法和description方法
知识回顾在第5讲中已经介绍了如何定义类和创建并初始化对象,比如有Student这个类1.Student.h 1 #import <Foundation/Foundation.h>23@in ...
js中跳转
<li><a href="javascript:recordRescSifting('+subject.subId+');">'+subject.subNa ...

lucene定义自己的分词器将其分成单个字符

lucene定义自己的分词器将其分成单个字符的更多相关文章

随机推荐

热门专题