Lucene 7.2.1 自定义TokenFilter

1.自定义TokenFilter

import org.apache.lucene.analysis.TokenFilter;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;

import java.io.IOException;
import java.util.HashMap;
import java.util.Map;

public class CourtesyTokenFilter extends TokenFilter {

    private Map<String, String> courtesyMap = new HashMap<>();
    private CharTermAttribute charTermAttribute;

    public CourtesyTokenFilter(TokenStream input) {
        super(input);
        this.charTermAttribute = this.addAttribute(CharTermAttribute.class);
        courtesyMap.put("dr", "doctor");
        courtesyMap.put("mr", "mister");
        courtesyMap.put("mrs", "miss");
    }

    @Override
    public final boolean incrementToken() throws IOException {
        if (!this.input.incrementToken()) {
            return false;
        }

        String term = this.charTermAttribute.toString();
        if (courtesyMap.containsKey(term)) {
            this.charTermAttribute.setEmpty().append(this.courtesyMap.get(term));
        }

        return true;
    }
}

2.应用TokenFilter:

String text = "Hi, Dr Wang, Mr Liu asks if you stay with Mrs Liu yesterday!";
        StandardAnalyzer standardAnalyzer = new StandardAnalyzer();
        CourtesyTokenFilter courtesyTokenFilter = new CourtesyTokenFilter(standardAnalyzer.tokenStream("text", text));
        CharTermAttribute charTermAttribute = courtesyTokenFilter.addAttribute(CharTermAttribute.class);
        courtesyTokenFilter.reset();
        while (courtesyTokenFilter.incrementToken()) {
            System.out.print(charTermAttribute + " ");
        }

3.场景解析

"Hi, Dr Wang, Mr Liu asks if you stay with Mrs Liu yesterday!" 这段文本中，有Dr, Mrs这两个词，我们看不懂，要用全称来显示。

Lucene 7.2.1 自定义TokenFilter的更多相关文章

Lucene 7.2.1 自定义Analyzer和TokenFilter
1.自定义Analyzer: @Test public void t01() throws Exception { ArrayList<String> strings = new A ...
Lucene根据字段进行自定义搜索扩展
最近需要对公司的产品搜索功能做一步改动,搜索到的结果首先按照是否有库存进行排序,然后再按照销量.由于库存量也是一个整数,如果直接按照库存量进行倒序排序的话,是不符合要求的,Lucene也没有支持我们这 ...
Lucene 中的Tokenizer, TokenFilter学习
lucene中的TokenStream,TokenFilter之间关系 TokenStream是一个能够在被调用后产生语汇单元序列的类,其中有两个类型:Tokenizer和TokenFilte ...
Lucene 中自定义排序的实现
使用Lucene来搜索内容,搜索结果的显示顺序当然是比较重要的.Lucene中Build-in的几个排序定义在大多数情况下是不适合我们使用的.要适合自己的应用程序的场景,就只能自定义排序功能,本节我们 ...
lucene学习教程
1Lucene的介绍 ①Lucene是什么: 是一个开放源代码的全文检索引擎工具包,但它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎 ②Lu ...
《Lucene in Action 第二版》第4章节学习总结 -- Lucene中的分析
通过第四章的学习,可以了解lucene的分析过程是怎样的,并且可以学会如何使用lucene内置分析器,以及自定义分析器.下面是具体总结 1. 分析(Analysis)是什么? 在lucene中,分析就 ...
Lucene 评分机制二 Payload
这里使用的Lucene4.7.0和Lucene3.X稍有不同有下面三段内容,我想对船一系列的搜索进行加分 bike car jeep truck bus boat train car ship bo ...
Lucene.net 的性能探究--Lucene.net 的并发处理能力到底有多强？
这篇博客并不是证明Lucene.net的性能有多强悍,实际上Lucene.net的并发能力并不让人很满意,这得看你怎么用它. 因为Lucene 本身就是一个搜索引擎的基础框架,相当于一辆车子的发动机, ...
Lucene-Analyzer
Lucene文本解析器实现把一段文本信息拆分成多个分词,我们都知道搜索引擎是通过分词检索的,文本解析器的好坏直接决定了搜索的精度和搜索的速度. 1.简单的Demo private static fi ...

随机推荐

更改angular的默认端口
一.现象当本地同时运行了多个angular项目时,端口占用问题 Port 4200 is already in use. Use '--port' to specify a different po ...
js判断手机系统（Android或IOS），跳转相应下载地址
<script type="text/javascript"> $(document).ready(function(e) { var u = navigator.us ...
第三次spring会议
昨天天所做之事: 我用C#用DelectText对行数进行了定义,刚开始写代码有点无从下手. 遇到的问题:刚开始用datagridView进行了文本的输入,但是它更适合EXCEL之类的数据计算不符合我 ...
Calendar类常用需求方法
经常处理一些日期相关的信息,Calendar类是处理日期的常用类,写下几个方法,不用重复造轮子了. 1.求上一天,下一天的日期 Date now = new Date();Calendar c = C ...
Codeforces 1077C Good Array 坑 C
Codeforces 1077C Good Array https://vjudge.net/problem/CodeForces-1077C 题目: Let's call an array good ...
mysql的部署
mysql在linux系统中的部署: 二进制包安装软件: 第一步:下载二进制软件,上传到服务器 www.mysql.com mkdir /server/tools -y cd /server/tool ...
c++类对象的内存分布
要想知道c++类对象的内存布局, 可以有多种方式,比如: 1)输出成员变量的偏移, 通过offsetof宏来得到 2)通过调试器查看, 比如常用的VS 1.没有数据成员的对象 class A{ }; ...
HDU 4309 Seikimatsu Occult Tonneru (状压 + 网络流)
题意:输入 n 个城市 m 条边,但是边有三种有向边 a b c d,第一种是 d 是 0,那么就是一条普通的路,可以通过无穷多人,如果 d < 0,那么就是隧道,这个隧道是可以藏 c 个人, ...
VP-UML系统建模工具研究
一.基本信息标题:VP-UML系统建模工具研究时间:2014 出版源:软件工程师领域分类:面向对象:CASE:UML:系统建模: 二.研究背景问题定义:VP-UML系统建模的主要特点难点:运 ...
Codeforces Round #514 (Div. 2) C. Sequence Transformation
题目大意:给你一个n 从1,2,3......n这个序列中依次进行以下操作:1 .求所有数的最大公因数,放入a序列里面 2 .任意删去一个元素一直到序列为空根据删除元素的不同,导致序列a的字典序 ...

Lucene 7.2.1 自定义TokenFilter

Lucene 7.2.1 自定义TokenFilter的更多相关文章

随机推荐

热门专题