lucene in action

1. 索引——好比字典的索引一样，进行查询时使用

2. Field.Index.NO 则没有索引，则不能被搜索

第三章

PhraseQuery 短语查询

按照顺序添加term

PharseQuery 短语查询的评分：

public class App

{

    public static void main( String[] args ) throws IOException, ParseException

    {

        Directory dir = new RAMDirectory();

        IndexWriterConfig conf = new IndexWriterConfig(new WhitespaceAnalyzer());

        IndexWriter writer = new IndexWriter(dir, conf);

        Document doc = new Document();

        doc.add(new TextField("text", "lazy dog jump over cat", Field.Store.YES));

        writer.addDocument(doc);

        doc = new Document();

        doc.add(new TextField("text", "lazy haha dog lala jump ooo over this cat", Field.Store.YES));

        writer.addDocument(doc);

        doc = new Document();

        doc.add(new TextField("text", "dog lazy haha pig lala jump ooo over this cat", Field.Store.YES));

        writer.addDocument(doc);

        IndexReader reader = DirectoryReader.open(writer, true);

        IndexSearcher searcher = new IndexSearcher(reader);

//      Query query = new MatchAllDocsQuery();

        QueryParser parser = new  QueryParser("text", new WhitespaceAnalyzer());

        parser.setDefaultOperator(Operator.AND);

        Query query = parser.parse("\"dog cat\"~5");

        System.out.println("query["+query.toString()+"]");

        TopDocs hits = searcher.search(query, 10);

        System.out.println(hits.totalHits);

        ScoreDoc[] docs = hits.scoreDocs;

        for(ScoreDoc scoreDoc : docs){

        	int docID = scoreDoc.doc;

        	float score = scoreDoc.score;

        	Document docu = searcher.doc(docID);

        	System.out.println(docID+" - "+score+" - "+docu.get("text"));

        }

    }

}

　　经测试，

　　首先，只返回符合条件的查询结果。如：查找slop=2的，那么项间距大于2的不会被检索到。

　　其次，短语查询不是布尔查询。它根据匹配所需要的编辑距离来进行评分。返回的结果中，项之间距离越小，评分越高，排序越靠前。

　最后，松散的短语查询不需要按照顺序进行匹配，但是SpanNearQuery能够确保按照顺序匹配。

第四章分析器

同义词过滤器实现：

直观想法是在有同义词的位置插入同义词，位置增量为0.

实现起来和直观想法不一样，因为TokenStream是流。具体实现的思路是：

incrementToken每一次执行打印一个token, 我们应该是在有同义词的token的下一个token打印出需要插入的同义词。

判断有同义词- 》存储到缓存，下一次循环 -》先判断缓存是否有需要展示的同义词，有则打印。

lucene in action的更多相关文章

《Lucene in Action 第二版》第4章节学习总结 -- Lucene中的分析
通过第四章的学习,可以了解lucene的分析过程是怎样的,并且可以学会如何使用lucene内置分析器,以及自定义分析器.下面是具体总结 1. 分析(Analysis)是什么? 在lucene中,分析就 ...
《Lucene in Action第二版》学习总结---如何在Windows下编译luceneinAction2Edition源码包
1. 下载此源码包,位置是: www.manning.com/hatcher3,得到:lia2e.tar.gz,然后解压缩得到目录:lia2e,为了以后能辨识,我将此目录改名为:luceneinAct ...
《Lucene in Action》（第二版）第二章节的学习总结 ---- IndexWriter+Document+Field
这一章节的学习,主要是学会如何创建索引,使用索引一.创建索引 1.从原始文件中提取内容.这里的文件,可以是文本文件,也可以是二进制文件.文本文件(txt),lucene可以直接处理:而二进制文件(w ...
《Lucene in Action》（第二版）第一章节的学习总结 ---- 用最少的代码创建索引和搜索
第一章节是介绍性质,但是通过这一章节的学习,我理解到如下概念: 1.Lucene由两部分组成:索引和搜索.索引是通过对原始数据的解析,形成索引的过程:而搜索则是针对用户输入的查找要求,从索引中找到匹配 ...
Lucene in action 笔记 term vector——针对特定field建立的词频向量空间，不存！不会！影响搜索，其作用是告诉我们搜索结果是“如何”匹配的，用以提供高亮、计算相似度，在VSM模型中评分计算
摘自:http://makble.com/what-is-term-vector-in-lucene given a document, find all its terms and the posi ...
《Lucene in Action 第二版》第三章节的学习总结----IndexSearcher以及Term和QueryParser
本章节告诉我们怎么用搜索.通过这章节的学习,虽然搜索的内部原理不清楚,但是至少应该学会简单的编写搜索程序了本章节,需要掌握如下几个主要API1.IndexSearcher类:搜索索引的门户,发起者. ...
Lucene的分析资料【转】
Lucene 源码剖析 1 目录 2 Lucene是什么 2.1.1 强大特性 2.1.2 API组成- 2.1.3 Hello World! 2.1.4 Lucene roadmap 3 索引文件结 ...
【手把手教你全文检索】Apache Lucene初探
PS: 苦学一周全文检索,由原来的搜索小白,到初次涉猎,感觉每门技术都博大精深,其中精髓亦是不可一日而语.那小博猪就简单介绍一下这一周的学习历程,仅供各位程序猿们参考,这其中不涉及任何私密话题,因此也 ...
Apache Lucene学习笔记
Hadoop概述 Apache lucene: 全球第一个开源的全文检索引擎工具包完整的查询引擎和搜索引擎部分文本分析引擎开发人员在此基础建立完整的全文检索引擎以下为转载:http://www ...

随机推荐

使用ListOperations操作redis
使用ListOperations对象操作redis list: 方法 c参数 s说明 List<V> range(K key, long start, long end); K key ...
java笔试面试01
今天给大家分享一下小布去广州华南资讯科技公司笔试和面试的过程. 过程:1.HR面试 2.笔试 3.技术面试小布下午两点到达,进门从前台领了一张申请表,填完之后带上自己的简历到4楼就开始HR面试. ...
【PHP】- include、require、include_once 和 require_once的区别
1.include:会将指定的档案读入并且执行里面的程序. 被导入的档案中的程序代码都会被执行,而且这些程序在执行的时候会拥有和源文件中呼叫到 include() 函数的位置相同的变量范围( ...
RunKit & NPM
RunKit + NPM Try any Node.js package right in your browser https://npm.runkit.com/segmentit
require.js 模块化
什么是模块化? 将若干功能进行封装,以备将来被重复使用. 为什么要前端模块化? 将公共功能进行封装实现复用灵活解决依赖解决全局变量污染如何实现前端模块化? <!DOCTYPE html&g ...
隐马尔可夫模型HMM
隐马尔可夫模型HMM的探究 1 HMM基本概念1.1 定义1.2 观测序列生成过程1.3 HMM的三个问题2 概率计算算法2.1 直接计算算法2.2 前向算法forward algorithm2.3 ...
How to Create a Perl Based Custom Monitor on NetScaler
How to Create a Perl Based Custom Monitor on NetScaler https://support.citrix.com/article/CTX227727 ...
[NOIP2018 TG D2T1]旅行
题目大意:$NOIP\;TG\;D2T1$ 题解:一棵树的很简单,第一个点一定是$1$,只需要对每个节点,找最小的没有访问过的节点访问即可,我写的是$O(n\log_2n)$. 考虑基环树的部分,一个 ...
POJ2516:Minimum Cost(最小费用最大流)
Minimum Cost Time Limit: 4000MS Memory Limit: 65536K Total Submissions: 19088 Accepted: 6740 题目链 ...
java的哈希遍历 hashmap
Map<String,String> map = new HashMap<String, String>(); map.put("title"," ...

lucene in action

lucene in action的更多相关文章

随机推荐

热门专题