Lucene实现自己的英文空格小写分词器

看一下继承图，Tokenizer和TokenFilter都是继承于TokenStream，TokenStream继承了AttributeSource

package com.lucene.demo.analizer;

import org.apache.lucene.analysis.Analyzer;

import org.apache.lucene.analysis.TokenFilter;

import org.apache.lucene.analysis.TokenStream;

import org.apache.lucene.analysis.Tokenizer;

import org.apache.lucene.util.Attribute;

import org.apache.lucene.util.AttributeImpl;

import org.apache.lucene.util.AttributeReflector;

import java.io.IOException;

public class SansamAnalyzer extends Analyzer{

    /**

     *

     */

    @Override

    protected TokenStreamComponents createComponents(String fieldName) {

        //装饰器模式，将分出的词项用filter进行处理，可以链式装饰实现多个filter

        MyTokenizer myTokenizer = new MyTokenizer();

        MyLowerCaseTokenFilter myLowerCaseTokenFilter = new MyLowerCaseTokenFilter(myTokenizer);

        return new TokenStreamComponents(myTokenizer, myLowerCaseTokenFilter);

    }

    public static class MyTokenizer extends Tokenizer{

        //调用AttributeSource-addAttribute方法

        //维护了一个attributes Map，实现可复用

        //private final Map<Class<? extends Attribute>, AttributeImpl> attributes;

        //private final Map<Class<? extends AttributeImpl>, AttributeImpl> attributeImpls;

        MyAttribute attribute = this.addAttribute(MyAttribute.class);

        char[] buffer = new char[255];

        int length = 0;

        int c;

        @Override

        public boolean incrementToken() throws IOException {

            //进行分析处理逻辑

            clearAttributes();

            length = 0;

            while (true){

                c = this.input.read();

                if(c == -1){

                    if(length > 0){

                        this.attribute.setChar(buffer,length);

                        return true;

                    }else {

                        return false;

                    }

                }

                if(Character.isWhitespace(c)){

                    if(length > 0){

                        this.attribute.setChar(buffer,length);

                        return true;

                    }

                }

                buffer[length++] = (char)c;

            }

        }

    }

    public static class MyLowerCaseTokenFilter extends TokenFilter{

        public MyLowerCaseTokenFilter(TokenStream s){

            super(s);

        }

        MyAttribute attribute = this.addAttribute(MyAttribute.class);

        @Override

        public boolean incrementToken() throws IOException {

            //获取一个分词项进行处理

            boolean b = this.input.incrementToken();

            if (b){

                char[] chars = this.attribute.getChar();

                int length = this.attribute.getLength();

                if(length > 0){

                    for (int i = 0; i < length; i++) {

                        chars[i] = Character.toLowerCase(chars[i]);

                    }

                }

            }

            return b;

        }

    }

    /**

     * 自定义Attribute属性接口 继承Attribute

     */

    public static interface MyAttribute extends Attribute {

        void setChar(char [] c, int length);

        char [] getChar();

        int getLength();

        String getString();

    }

    /**

     * 必须使用interface+Impl 继承AttributeImpl

     */

    public static class MyAttributeImpl extends AttributeImpl implements MyAttribute {

        char [] term = new char[255];

        int length = 0;

        @Override

        public void setChar(char[] c, int length) {

            this.length = length;

            if(c.length > 0){

                System.arraycopy(c,0,term,0,length);

            }

        }

        @Override

        public char[] getChar() {

            return term;

        }

        @Override

        public int getLength() {

            return length;

        }

        @Override

        public String getString() {

            if(length > 0){

                return new String(term,0,length);

            }

            return null;

//            return new String(term);  //不能直接返回 因为长度问题 默认255字符

        }

        @Override

        public void clear() {

            term = null;

            term = new char[255];

            this.length = 0;

        }

        @Override

        public void reflectWith(AttributeReflector reflector) {

        }

        @Override

        public void copyTo(AttributeImpl target) {

        }

    }

    public static void main(String[] args) {

        String text = "Hello World A b C";

        try(SansamAnalyzer analyzer = new SansamAnalyzer();

            //调用tokenStream()时 会先得到TokenStreamComponents对象 得到了MyLowerCaseTokenFilter 对象 观察其构造方法及此方法的返回值

            TokenStream stream =  analyzer.tokenStream("title",text);){

            MyAttribute attribute = stream.getAttribute(MyAttribute.class);

            stream.reset();

            while (stream.incrementToken()){

                System.out.print(attribute.getString()+" | ");

            }

            stream.end();

        }catch (Exception e){

                e.printStackTrace();

        }

    }

}

Lucene实现自己的英文空格小写分词器的更多相关文章

lucene整理3 -- 排序、过滤、分词器
1. 排序 1.1. Sort类 public Sort() public Sort(String field) public Sort(String field,Boolean reverse ...
Lucene的中文分词器IKAnalyzer
分词器对英文的支持是非常好的. 一般分词经过的流程: 1)切分关键词 2)去除停用词 3)把英文单词转为小写但是老外写的分词器对中文分词一般都是单字分词,分词的效果不好. 国人林良益写的IK Ana ...
Lucene介绍及简单入门案例（集成ik分词器）
介绍 Lucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,但它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和 ...
elasticsearch 分析器分词器
参考:https://www.elastic.co/guide/en/elasticsearch/reference/current/analysis-tokenizers.html 在全文搜索(Fu ...
Elasticsearch之文档的增删改查以及ik分词器
文档的增删改查增加文档使用elasticsearch-head查看修改文档使用elasticsearch-head查看删除文档使用elasticsearch-head查看查看文档的三种方 ...
Restful认识和 IK分词器的使用
什么是Restful风格 Restful是一种面向资源的架构风格,可以简单理解为:使用URL定位资源,用HTTP动词(GET,POST,DELETE,PUT)描述操作. 使用Restful的好处: 透 ...
IK分词器原理分析源码解析
IK分词器在是一款基于词典和规则的中文分词器.本文讲解的IK分词器是独立于elasticsearch.Lucene.solr,可以直接用在java代码中的部分.关于如何开发es分词插件,后续会有文 ...
ElasticSearch-IK分词器和集成使用
1.查询存在问题分析在进行字符串查询时,我们发现去搜索"搜索服务器"和"钢索"都可以搜索到数据: 而在进行词条查询时,我们搜索"搜索"却没 ...
三、Solr多核心及分词器（IK）配置
多核心的概念多核心说白了就是多索引库.也可以理解为多个"数据库表" 说一下使用multicore的真实场景,比若说,产品搜索和会员信息搜索,不使用多核也没问题,这样带来的问题是 ...

随机推荐

MySql CURD操作（数据的增删改查）
1.增格式 insert into 表名字 (列名) values(...); 两种方式 1.直接insert into 表名字 values(...); 全部插入 2.insert into ...
php laravel加密 form表单认证 laravel分页
use Illuminate\Support\Facades\Crypt; echo Crypt::encrypt(123); //加密echo "<br>";//解密 ...
dojo里添加目录树
其实循环生成目录树这个方法不仅仅局限于在使用dojo的情况下,只要明白了其中的原理,在任何一种语言下都能动态循环生成. 1. 数据结构在这里先说明一下数据结构,我这里循环生成目录树的数据结构是像这样 ...
Navicat远程连接不上mysql解决方案
一.can‘t connect to MySql server on ‘47.93.X.X’ 这是因为mysql端口被防火墙拦截,需用linux执行如下指令: 1.#/sbin/iptables -I ...
Java学习--数组--判断数组中是否包含某个元素的方法
package zaLearnpackage; import org.apache.commons.lang3.ArrayUtils; import java.util.Arrays; import ...
用word发布CSDN文章
目前大部分的博客作者在用Word写博客这件事情上都会遇到以下3个痛点: 1.所有博客平台关闭了文档发布接口,用户无法使用Word,Windows Live Writer等工具来发布博客.使用Word写 ...
JS中this的四种用法
1.在一般函数方法中使用 this 指代全局对象 2.作为对象方法调用,this 指代上级对象 3.作为构造函数调用,this 指代new 出的对象 4.apply 调用 ,apply方法作用是改变函 ...
linux下的dhcp服务器实现
一.得到udhcpd(udhcp服务端): 1.解压busybox 2.配置busybox Networking Utilities——> [*] udhcp server(udhcpd) [* ...
深入理解C++11【4】
[深入理解C++11[4]] 1.基于范围的 for 循环 C++98 中需要告诉编译器循环体界面范围.如for,或stl 中的for_each: int main() { ] = { , , , , ...
Linux源码安装JDK1.8
Linux源码安装Java 1.到官网下载 jdk-8u131-linux-x64.tar.gz 官网地址:http://www.oracle.com/technetwork/java/javase/ ...

Lucene实现自己的英文空格小写分词器

看一下继承图，Tokenizer和TokenFilter都是继承于TokenStream，TokenStream继承了AttributeSource

Lucene实现自己的英文空格小写分词器的更多相关文章

随机推荐

热门专题