Lucene 6.0下使用IK分词器

Lucene 6.0使用IK分词器需要修改修改IKAnalyzer和IKTokenizer.

使用时先新建一个MyIKTokenizer类,一个MyIkAnalyzer类：

MyIKTokenizer.java

import java.io.IOException;

import java.io.Reader;

import org.apache.lucene.analysis.Tokenizer;

import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;

import org.apache.lucene.analysis.tokenattributes.OffsetAttribute;

import org.apache.lucene.analysis.tokenattributes.TypeAttribute;

import org.wltea.analyzer.core.IKSegmenter;

import org.wltea.analyzer.core.Lexeme;

public class MyIKTokenizer extends Tokenizer {

    // IK分词器实现

    private IKSegmenter _IKImplement;

    // 词元文本属性

    private final CharTermAttribute termAtt;

    // 词元位移属性

    private final OffsetAttribute offsetAtt;

    // 词元分类属性（该属性分类参考org.wltea.analyzer.core.Lexeme中的分类常量）

    private final TypeAttribute typeAtt;

    // 记录最后一个词元的结束位置

    private int endPosition;

    public MyIKTokenizer(Reader in) {

        this(in, false);

    }

    public MyIKTokenizer(Reader in, boolean useSmart) {

        offsetAtt = addAttribute(OffsetAttribute.class);

        termAtt = addAttribute(CharTermAttribute.class);

        typeAtt = addAttribute(TypeAttribute.class);

        _IKImplement = new IKSegmenter(input, useSmart);

    }

    @Override

    public boolean incrementToken() throws IOException {

        // 清除所有的词元属性

        clearAttributes();

        Lexeme nextLexeme = _IKImplement.next();

        if (nextLexeme != null) {

            // 将Lexeme转成Attributes

            // 设置词元文本

            termAtt.append(nextLexeme.getLexemeText());

            // 设置词元长度

            termAtt.setLength(nextLexeme.getLength());

            // 设置词元位移

            offsetAtt.setOffset(nextLexeme.getBeginPosition(),

                    nextLexeme.getEndPosition());

            // 记录分词的最后位置

            endPosition = nextLexeme.getEndPosition();

            // 记录词元分类

            typeAtt.setType(nextLexeme.getLexemeTypeString());

            // 返会true告知还有下个词元

            return true;

        }

        // 返会false告知词元输出完毕

        return false;

    }

    public void reset() throws IOException {

        super.reset();

        _IKImplement.reset(input);

    }

    @Override

    public final void end() {

        // set final offset

        int finalOffset = correctOffset(this.endPosition);

        offsetAtt.setOffset(finalOffset, finalOffset);

    }

}

MyIkAnalyzer.java

package cn.ucas.lucene.ik;

import java.io.Reader;

import java.io.StringReader;

import org.apache.lucene.analysis.Analyzer;

import org.apache.lucene.util.IOUtils;

public class MyIkAnalyzer extends Analyzer {

    @Override

    protected TokenStreamComponents createComponents(String arg0) {

        Reader reader=null;

        try{

            reader=new StringReader(arg0);

            MyIKTokenizer it = new MyIKTokenizer(reader);

            return new Analyzer.TokenStreamComponents(it);

        }finally {

            IOUtils.closeWhileHandlingException(reader);

        }

    }

}

在Lucene中使用IK分词器：

Analyzer myIkAnalyzer=new MyIkAnalyzer();

Lucene 6.0下使用IK分词器的更多相关文章

ElasticSearch6.5.0 【安装IK分词器】
不得不夸奖一下ES的周边资源,比如这个IK分词器,紧跟ES的版本,卢本伟牛逼!另外ES更新太快了吧,几乎不到半个月一个小版本就发布了!!目前已经发了6.5.2,估计我还没怎么玩就到7.0了. 下载分 ...
Elasticsearch下安装ik分词器
安装ik分词器(必须安装maven) 上传相应jar包解压到相应目录 unzip elasticsearch-analysis-ik-master.zip(zip包) cp -r elasticse ...
【杂记】docker搭建ELK 集群6.4.0版本 + elasticsearch-head IK分词器与拼音分词器整合
大佬博客地址:https://blog.csdn.net/supermao1013/article/category/8269552 docker elasticsearch 集群启动命令 docke ...
Linux下,非Docker启动Elasticsearch 6.3.0,安装ik分词器插件,以及使用Kibana测试Elasticsearch,
Linux下,非Docker启动Elasticsearch 6.3.0 查看java版本,需要1.8版本 java -version yum -y install java 创建用户,因为elasti ...
IK分词器原理与源码分析
原文:http://3dobe.com/archives/44/ 引言做搜索技术的不可能不接触分词器.个人认为为什么搜索引擎无法被数据库所替代的原因主要有两点,一个是在数据量比较大的时候,搜索引擎的 ...
Elasticsearch之文档的增删改查以及ik分词器
文档的增删改查增加文档使用elasticsearch-head查看修改文档使用elasticsearch-head查看删除文档使用elasticsearch-head查看查看文档的三种方 ...
（2）ElasticSearch在linux环境中集成IK分词器
1.简介 ElasticSearch默认自带的分词器,是标准分词器,对英文分词比较友好,但是对中文,只能把汉字一个个拆分.而elasticsearch-analysis-ik分词器能针对中文词项颗粒度 ...
lucene版本升级到4.6.0以上之后使用ik分词器遇到的问题
在将lucene core版本从4.5.1升级到4.7.0后,如下代码使用ik分词器报错 IKAnalyzer analyzer = new IKAnalyzer(true); StringReade ...
Lucene.net(4.8.0) 学习问题记录五: JIEba分词和Lucene的结合，以及对分词器的思考
前言:目前自己在做使用Lucene.net和PanGu分词实现全文检索的工作,不过自己是把别人做好的项目进行迁移.因为项目整体要迁移到ASP.NET Core 2.0版本,而Lucene使用的版本是3 ...

随机推荐

requests post一个json数据
# post一个json数据 import requests headers={ "Accept":"application/json, text/plain, */*& ...
view-xpath
https://addons.mozilla.org/en-US/firefox/ WebDriver Element Locator
Java基础之关键字，标识符，变量
Java基础首先,来看一下Java基础知识图解,以下便是在java学习中我们需要学习设计到的一些知识(当然不是很完全). 这些都是接下来在以后的学习中我们会学到的一些知识. 1 关键字首次先来学习 ...
Spting +Spring MVC+spring date jsp +hibernate+jq
controller 控制页面跳转处理前台后台数据交互访问servicedao层:@Repository 数据库访问层增删改查 jpa规范了hibernate jap仓库 jpa自动解析方法名 ...
[LeetCode] 4 Keys Keyboard 四键的键盘
Imagine you have a special keyboard with the following keys: Key 1: (A): Print one 'A' on screen. Ke ...
[HAOI2008]下落的圆盘
Description 有n个圆盘从天而降,后面落下的可以盖住前面的.求最后形成的封闭区域的周长.看下面这副图, 所有的红色线条的总长度即为所求. Input 第一行为1个整数n,N<=100 ...
●Joyoi Normal
题链: http://www.joyoi.cn/problem/tyvj-1953题解: 定义d(u,v)这个函数,满足: d(u,v)=1,当且仅当在点分树中,u是v的祖先 d(u,v)=0,其它情 ...
●CodeForces 280D k-Maximum Subsequence Sum
题链: http://codeforces.com/problemset/problem/280/D 题解: 神题,巨恶心.(把原来的那个dp题升级为:序列带修 + 多次询问区间[l,r]内取不超过k ...
hdu 5274 树链剖分
Dylans loves tree Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 131072/131072 K (Java/Othe ...
UVA 1146 Now or later
The Terminal Radar Approach CONtrol (TRACON) controls aircraft approaching and departing when they a ...

Lucene 6.0下使用IK分词器

MyIKTokenizer.java

MyIkAnalyzer.java

Lucene 6.0下使用IK分词器的更多相关文章

随机推荐

热门专题