Lucene-Analyzer

Lucene文本解析器实现把一段文本信息拆分成多个分词，我们都知道搜索引擎是通过分词检索的，文本解析器的好坏直接决定了搜索的精度和搜索的速度。

1.简单的Demo

    private static final String[] examples = { "The quick brown 1234 fox jumped over the lazy dog!","XY&Z 15.6 Corporation - xyz@example.com", "北京市北京大学" };

    private static final Analyzer[] ANALYZERS = new Analyzer[] { 
           new WhitespaceAnalyzer(), new SimpleAnalyzer(), new StopAnalyzer(), new StandardAnalyzer(), new CJKAnalyzer(), new SmartChineseAnalyzer() };

              //空格符拆分             非字母拆分             非字母拆分去掉停词       Unicode文本分割        日韩文分割               简体中文分割
    @Test

    public void testAnalyzer() throws IOException {

        for (int i = 0; i < ANALYZERS.length; i++) {

            String simpleName = ANALYZERS[i].getClass().getSimpleName();

            for (int j = 0; j < examples.length; j++) {

                //TokenStream是分析处理组件中的一种中间数据格式，它从一个reader中获取文本， 分词器Tokenizer和过滤器TokenFilter继承自TokenStream

                TokenStream contents = ANALYZERS[i].tokenStream("contents", new StringReader(examples[j]));

                //添加多个Attribute，从而可以了解到分词之后详细的词元信息  ，OffsetAttribute 表示token的首字母和尾字母在原文本中的位置

                OffsetAttribute offsetAttribute = contents.addAttribute(OffsetAttribute.class);

                TypeAttribute typeAttribute = contents.addAttribute(TypeAttribute.class); //TypeAttribute 表示token的词汇类型信息，默认值为word

                contents.reset();

                System.out.println("  " + simpleName + " analyzing : " + examples[j]);

                while (contents.incrementToken()) {

                    String s1 = offsetAttribute.toString();

                    int i1 = offsetAttribute.startOffset();// 起始偏移量

                    int i2 = offsetAttribute.endOffset(); // 结束偏移量

                    System.out.println("    " + s1 + "[" + i1 + "," + i2 + ":" + typeAttribute.type() + "]" + "  ");

                }

                contents.end();

                contents.close(); //调用incrementToken()结束迭代之后，调用end()和close()方法，其中end()可以唤醒当前TokenStream的处理器去做一些收尾工作，close()可以关闭TokenStream和Analyzer去释放在分析过程中使用的资源。

                System.out.println();

            }

        }

    }

}

2. 了解tokenStream的Attribute

tokenStream()方法之后，添加多个Attribute，可以了解到分词之后详细的词元信息，比如CharTermAttribute用于保存词元的内容，TypeAttribute用于保存词元的类型。

CharTermAttribute 表示token本身的内容
PositionIncrementAttribute 表示当前token相对于前一个token的相对位置，也就是相隔的词语数量（例如“text for attribute”，
text和attribute之间的getPositionIncrement为2），如果两者之间没有停用词，那么该值被置为默认值1
OffsetAttribute 表示token的首字母和尾字母在原文本中的位置
TypeAttribute 表示token的词汇类型信息，默认值为word，
其它值有<ALPHANUM> <APOSTROPHE> <ACRONYM> <COMPANY> <EMAIL> <HOST> <NUM> <CJ> <ACRONYM_DEP>
FlagsAttribute 与TypeAttribute类似，假设你需要给token添加额外的信息，而且希望该信息可以通过分析链，那么就可以通过flags去传递
PayloadAttribute 在每个索引位置都存储了payload（关键信息），当使用基于Payload的查询时，该信息在评分中非常有用

    @Test

    public void testAttribute() throws IOException {

        Analyzer analyzer = new StandardAnalyzer();

        String input = "This is a test text for attribute! Just add-some word.";

        TokenStream tokenStream = analyzer.tokenStream("text", new StringReader(input));

        CharTermAttribute charTermAttribute = tokenStream.addAttribute(CharTermAttribute.class);

        PositionIncrementAttribute positionIncrementAttribute = tokenStream.addAttribute(PositionIncrementAttribute.class);

        OffsetAttribute offsetAttribute = tokenStream.addAttribute(OffsetAttribute.class);

        TypeAttribute typeAttribute = tokenStream.addAttribute(TypeAttribute.class);

        PayloadAttribute payloadAttribute = tokenStream.addAttribute(PayloadAttribute.class);

        payloadAttribute.setPayload(new BytesRef("Just"));

        tokenStream.reset();

        while (tokenStream.incrementToken()) {

            System.out.print(

                    "[" + charTermAttribute

                     + " increment:" + positionIncrementAttribute.getPositionIncrement()

                     + " start:" + offsetAttribute.startOffset()

                     + " end:" + offsetAttribute.endOffset()

                     + " type:"+ typeAttribute.type()

                     + " payload:" + payloadAttribute.getPayload() + "]\n");

        }

        tokenStream.end();

        tokenStream.close();

    }

3.Lucene 的分词器Tokenizer和过滤器TokenFilter

一个分析器由一个分词器和多个过滤器组成，分词器接受reader数据转换成 TokenStream，TokenFilter主要用于TokenStream的过滤操作，用来处理Tokenizer或者上一个TokenFilter处理后的结果，如果是对现有分词器进行扩展或修改。

自定义TokenFilter需要实现incrementToken()抽象函数，

public class TestTokenFilter {

    @Test

    public void test() throws IOException {

        String text = "Hi, Dr Wang, Mr Liu asks if you stay with Mrs Liu yesterday!";

        Analyzer analyzer = new WhitespaceAnalyzer();

        CourtesyTitleFilter filter = new CourtesyTitleFilter(analyzer.tokenStream("text", text));

        CharTermAttribute charTermAttribute = filter.addAttribute(CharTermAttribute.class);

        filter.reset();

        while (filter.incrementToken()) {

            System.out.print(charTermAttribute + " ");

        }

    }

}

/**

 * 自定义词扩展过滤器

 */

class CourtesyTitleFilter extends TokenFilter {

    Map<String, String> courtesyTitleMap = new HashMap<>();

    private CharTermAttribute termAttribute;

    protected CourtesyTitleFilter(TokenStream input) {

        super(input);

        termAttribute = addAttribute(CharTermAttribute.class);

        courtesyTitleMap.put("Dr", "doctor");

        courtesyTitleMap.put("Mr", "mister");

        courtesyTitleMap.put("Mrs", "miss");

    }

    @Override

    public final boolean incrementToken() throws IOException {

        if (!input.incrementToken()) {

            return false;

        }

        String small = termAttribute.toString();

        if (courtesyTitleMap.containsKey(small)) {

            termAttribute.setEmpty().append(courtesyTitleMap.get(small));

        }

        return true;

    }

}

输出结果如下
Hi, doctor Wang, mister Liu asks if you stay with miss Liu yesterday!

4.自定义Analyzer实现扩展停用词

class StopAnalyzerExtend extends Analyzer {

    private CharArraySet stopWordSet;//停止词词典

    public CharArraySet getStopWordSet() {

        return this.stopWordSet;

    }

    public void setStopWordSet(CharArraySet stopWordSet) {

        this.stopWordSet = stopWordSet;

    }

    public StopAnalyzerExtend() {

        super();

        setStopWordSet(StopAnalyzer.ENGLISH_STOP_WORDS_SET);

    }

    /**

     * @param stops 需要扩展的停止词

     */

    public StopAnalyzerExtend(List<String> stops) {

        this();

        /**如果直接为stopWordSet赋值的话，会报如下异常，这是因为在StopAnalyzer中有ENGLISH_STOP_WORDS_SET = CharArraySet.unmodifiableSet(stopSet);

         * ENGLISH_STOP_WORDS_SET 被设置为不可更改的set集合

         */

        //stopWordSet = getStopWordSet();

        stopWordSet = CharArraySet.copy(getStopWordSet());

        stopWordSet.addAll(StopFilter.makeStopSet(stops));

    }

    @Override

    protected TokenStreamComponents createComponents(String fieldName) {

        Tokenizer source = new LowerCaseTokenizer();

        return new TokenStreamComponents(source, new StopFilter(source, stopWordSet));

    }

    public static void main(String[] args) throws IOException {

        ArrayList<String> strings = new ArrayList<String>() {{

            add("小鬼子");

            add("美国佬");

        }};

        Analyzer analyzer = new StopAnalyzerExtend(strings);

        String content = "小鬼子 and 美国佬 are playing together!";

        TokenStream tokenStream = analyzer.tokenStream("myfield", content);

        tokenStream.reset();

        CharTermAttribute charTermAttribute = tokenStream.addAttribute(CharTermAttribute.class);

        while (tokenStream.incrementToken()) {

            // 已经过滤掉自定义停用词

            // 输出：playing   together

            System.out.println(charTermAttribute.toString());

        }

        tokenStream.end();

        tokenStream.close();

    }

}

5.自定义Analyzer实现字长过滤

class LongFilterAnalyzer extends Analyzer {

    private int len;

    public int getLen() {

        return this.len;

    }

    public void setLen(int len) {

        this.len = len;

    }

    public LongFilterAnalyzer() {

        super();

    }

    public LongFilterAnalyzer(int len) {

        super();

        setLen(len);

    }

    @Override

    protected TokenStreamComponents createComponents(String fieldName) {

        final Tokenizer source = new WhitespaceTokenizer();

        //过滤掉长度<len，并且>20的token

        TokenStream tokenStream = new LengthFilter(source, len, 20);

        return new TokenStreamComponents(source, tokenStream);

    }

    public static void main(String[] args) {

        //把长度小于2的过滤掉，开区间

        Analyzer analyzer = new LongFilterAnalyzer(2);

        String words = "I am a java coder! Testingtestingtesting!";

        TokenStream stream = analyzer.tokenStream("myfield", words);

        try {

            stream.reset();

            CharTermAttribute offsetAtt = stream.addAttribute(CharTermAttribute.class);

            while (stream.incrementToken()) {

                System.out.println(offsetAtt.toString());

            }

            stream.end();

            stream.close();

        } catch (IOException e) {

        }

    }

}
长度小于两个字符的文本都被过滤掉了。

6.PerFieldAnalyzerWrapper 处理不同的Field使用不同的Analyzer 。PerFieldAnalyzerWrapper可以像其它的Analyzer一样使用，包括索引和查询分析

    @Test

    public void testPerFieldAnalyzerWrapper() throws IOException, ParseException {

        Map<String, Analyzer> fields = new HashMap<>();

        fields.put("partnum", new KeywordAnalyzer());

        // 对于其他的域，默认使用SimpleAnalyzer分析器，对于指定的域partnum使用KeywordAnalyzer

        PerFieldAnalyzerWrapper perFieldAnalyzerWrapper = new PerFieldAnalyzerWrapper(new SimpleAnalyzer(), fields);

        Directory directory = new RAMDirectory();

        IndexWriterConfig indexWriterConfig = new IndexWriterConfig(perFieldAnalyzerWrapper);

        IndexWriter indexWriter = new IndexWriter(directory, indexWriterConfig);

        Document document = new Document();

        FieldType fieldType = new FieldType();

        fieldType.setStored(true);

        fieldType.setIndexOptions(IndexOptions.DOCS_AND_FREQS);

        document.add(new Field("partnum", "Q36", fieldType));

        document.add(new Field("description", "Illidium Space Modulator", fieldType));

        indexWriter.addDocument(document);

        indexWriter.close();

        IndexSearcher indexSearcher = new IndexSearcher(DirectoryReader.open(directory));

        // 直接使用TermQuery是可以检索到的

        TopDocs search = indexSearcher.search(new TermQuery(new Term("partnum", "Q36")), 10);

        Assert.assertEquals(1, search.totalHits);

        // 如果使用QueryParser，那么必须要使用PerFieldAnalyzerWrapper，否则如下所示，是检索不到的

        Query description = new QueryParser("description", new SimpleAnalyzer()).parse("partnum:Q36 AND SPACE");

        search = indexSearcher.search(description, 10);

        Assert.assertEquals(0, search.totalHits);

        System.out.println("SimpleAnalyzer :" + description.toString());// +partnum:q

                                                                        // +description:space，原因是SimpleAnalyzer会剥离非字母字符并将字母小写化

        // 使用PerFieldAnalyzerWrapper可以检索到

        // partnum:Q36 AND SPACE表示在partnum中出现Q36，在description中出现SPACE

        description = new QueryParser("description", perFieldAnalyzerWrapper).parse("partnum:Q36 AND SPACE");

        search = indexSearcher.search(description, 10);

        Assert.assertEquals(1, search.totalHits);

        System.out.println("(SimpleAnalyzer,KeywordAnalyzer) :" + description.toString());// +partnum:Q36 +description:space

    }

参考： http://www.codepub.cn/2016/05/23/Lucene-6-0-in-action-4-The-text-analyzer/

Lucene-Analyzer的更多相关文章

Lucene.net
模糊查询-〉数据库全文检索-〉Lucene 一元分词(lucene内置) Analyzer analyzer = new CJKAnalyzer(); TokenStream tokenStream ...
Lucene.net站内搜索—3、最简单搜索引擎代码
目录 Lucene.net站内搜索—1.SEO优化 Lucene.net站内搜索—2.Lucene.Net简介和分词Lucene.net站内搜索—3.最简单搜索引擎代码Lucene.net站内搜索—4 ...
Lucene.net站内搜索—2、Lucene.Net简介和分词
目录 Lucene.net站内搜索—1.SEO优化 Lucene.net站内搜索—2.Lucene.Net简介和分词Lucene.net站内搜索—3.最简单搜索引擎代码Lucene.net站内搜索—4 ...
站内搜索——Lucene +盘古分词
为了方便的学习站内搜索,下面我来演示一个MVC项目. 1.首先在项目中[添加引入]三个程序集和[Dict]文件夹,并新建一个[分词内容存放目录] Lucene.Net.dll.PanGu.dll.Pa ...
Lucene.net 全文检索盘古分词
lucene.net + 盘古分词引用: 1.Lucene.Net.dll 2.PanGu.Lucene.Analyzer.dll 3.PanGu.HighLight.dll 4.PanGu.dll ...
自定义分词器Analyzer
Analyzer,或者说文本分析的过程,实质上是将输入文本转化为文本特征向量的过程.这里所说的文本特征,可以是词或者是短语.它主要包括以下四个步骤: 1.分词,将文本解析为单词或短语 2.归一化,将文 ...
lucene 搜索引擎使用案例
1.使用定时框架Quartz.Net创建索引库,引用类库文件有Common.Logging.dll.Lucene.Net.dll,PanGu.dll,PanGu.HighLight.dll,PanGu ...
使用Lucene.Net实现全文检索
使用Lucene.Net实现全文检索目录一 Lucene.Net概述二分词三索引四搜索五实践中的问题一 Lucene.Net概述 Lucene.Net是一个C#开发的开源全文索引 ...
Lucene.Net 站内搜索
Lucene.Net 站内搜索一全文检索: like查询是全表扫描(为性能杀手)Lucene.Net搜索引擎,开源,而sql搜索引擎是收费的Lucene.Net只是一个全文检索开发包(只是帮我们 ...
lucene+盘古分词
一般的网站都会有都会有搜索的功能,一般实现搜索主要有三种方案第一种是最差的,也是最不推荐的,使用数据库的模糊查询例如select * form table where 字段 like XXX,这种查 ...

随机推荐

转:简单的RTSP消息交互过程
简单的RTSP消息交互过程 C表示RTSP客户端,S表示RTSP服务端 1. 第一步:查询服务器端可用方法 1.C->S:OPTION request //询问S有哪些方法可用 ...
关于Unity程序在IOS和Android上显示内嵌网页的方式
近期因为有须要在Unity程序执行在ios或android手机上显示内嵌网页.所以遍从网上搜集了一下相关的资料.整理例如以下: UnityWebCore 从搜索中先看到了这个.下载下来了以后发现这个的 ...
HDU 4107 Gangster Segment Tree线段树
这道题也有点新意,就是须要记录最小值段和最大值段,然后成段更新这个段,而不用没点去更新,达到提快速度的目的. 本题过的人非常少,由于大部分都超时了,我严格依照线段树的方法去写.一開始竟然也超时. 然后 ...
Spark 实时计算整合案例
1.概述最近有同学问道,除了使用 Storm 充当实时计算的模型外,还有木有其他的方式来实现实时计算的业务.了解到,在使用 Storm 时,需要编写基于编程语言的代码.比如,要实现一个流水指标的统计 ...
win平台，apache通过web访问svn
上个月用php写一个在线打包lua变成luac,碰到个权限问题.pysvn无法更新.网上搜了好半天都找不到解决方法.最好还是自己解决了. 解决方法也很简单,找到aphache服务,提权限就行了.lin ...
打开jnlp Faild to validate certificate, the application will not be executed.
今天连jenkins, 本来好好的,只是我在一台机器上一直不断的启动不同的jnlp,绑定不同命名的slave, 然后突然就报错了, 如下截图所示:
ubuntu下查看环境变量
在Windows下,查看环境变量的命令是:set,这个命令会输出系统当前的环境变量. Linux下准确的说是REDHAT下应该如何查看呢,命令是: export 如果你想查看某一个名称的环 ...
js判定IE
var ie=!-[1,]; 这句话对于多数前端来说都很熟悉,遇到判定是否是ie浏览器就用这个,但是对于由来以及为什么可能没有深入了解过. 短短6个bytes就做了判定.这个表达式是利用IE和标准浏览 ...
[转]使用Xcode 4发布App 实例操作
使用xcode 4发布app 实例操作是本文介绍的内容,不多说,我们直接进入话题. 1.iOS Provisioning Portal 和iTunes Connect 没有变,下载与安装.mobile ...
osgEarth基础入门
osgEarth基础入门 2015年3月21日 16:19 osgEarth是基于三维引擎osg开发的三维数字地球引擎库,在osg基础上实现了瓦片调度插件,可选的四叉树调度插件,更多的地理数据加载插件 ...

Lucene-Analyzer

Lucene-Analyzer的更多相关文章

随机推荐

热门专题