Lucene学习总结之八：Lucene的查询语法，JavaCC及QueryParser 2014-06-25 14:25 722人阅读评论(1) 收藏

【Lucene学习总结之八：Lucene的查询语法，JavaCC及QueryParser 2014-06-25 14:25 722人阅读评论(1) 收藏】的更多相关文章

Lucene学习总结之八：Lucene的查询语法，JavaCC及QueryParser 2014-06-25 14:25 722人阅读评论(1) 收藏

一.Lucene的查询语法 Lucene所支持的查询语法可见http://lucene.apache.org/java/3_0_1/queryparsersyntax.html (1) 语法关键字 + - && || ! ( ) { } [ ] ^ " ~ * ? : / 如果所要查询的查询词中本身包含关键字,则需要用/进行转义 (2) 查询词(Term) Lucene支持两种查询词,一种是单一查询词,如"hello",一种是词组(phrase),如"…

Lucene学习总结之七：Lucene搜索过程解析 2014-06-25 14:23 863人阅读评论(1) 收藏

一.Lucene搜索过程总论搜索的过程总的来说就是将词典及倒排表信息从索引中读出来,根据用户输入的查询语句合并倒排表,得到结果文档集并对文档进行打分的过程. 其可用如下图示: 总共包括以下几个过程: IndexReader打开索引文件,读取并打开指向索引文件的流. 用户输入查询语句将查询语句转换为查询对象Query对象树构造Weight对象树,用于计算词的权重Term Weight,也即计算打分公式中与仅与搜索语句相关与文档无关的部分(红色部分). 构造Scorer对象树,用于计算打分(T…

Lucene学习总结之六：Lucene打分公式的数学推导 2014-06-25 14:20 384人阅读评论(0) 收藏

在进行Lucene的搜索过程解析之前,有必要单独的一张把Lucene score公式的推导,各部分的意义阐述一下.因为Lucene的搜索过程,很重要的一个步骤就是逐步的计算各部分的分数. Lucene的打分公式非常复杂,如下: 在推导之前,先逐个介绍每部分的意义: t:Term,这里的Term是指包含域信息的Term,也即title:hello和content:hello是不同的Term coord(q,d):一次搜索可能包含多个搜索词,而一篇文档中也可能包含多个搜索词,此项表示,当一篇文档中包…

Lucene学习总结之一：全文检索的基本原理 2014-06-25 14:11 666人阅读评论(0) 收藏

一.总论根据http://lucene.apache.org/java/docs/index.html 定义: Lucene 是一个高效的,基于Java 的全文检索库. 所以在了解Lucene之前要费一番工夫了解一下全文检索. 那么什么叫做全文检索呢?这要从我们生活中的数据说起. 我们生活中的数据总体分为两种:结构化数据和非结构化数据 . 结构化数据: 指具有固定格式或有限长度的数据,如数据库,元数据等. 非结构化数据: 指不定长或无固定格式的数据,如邮件,word文档等. 当然有的地方还会…

Lucene学习总结之四：Lucene索引过程分析 2014-06-25 14:18 884人阅读评论(0) 收藏

对于Lucene的索引过程,除了将词(Term)写入倒排表并最终写入Lucene的索引文件外,还包括分词(Analyzer)和合并段(merge segments)的过程,本次不包括这两部分,将在以后的文章中进行分析. Lucene的索引过程,很多的博客,文章都有介绍,推荐大家上网搜一篇文章:<Annotated Lucene>,好像中文名称叫<Lucene源码剖析>是很不错的. 想要真正了解Lucene索引文件过程,最好的办法是跟进代码调试,对着文章看代码,这样不但能够最详细准确…

Lucene学习总结之三：Lucene的索引文件格式(1) 2014-06-25 14:15 1124人阅读评论(0) 收藏

Lucene的索引里面存了些什么,如何存放的,也即Lucene的索引文件格式,是读懂Lucene源代码的一把钥匙. 当我们真正进入到Lucene源代码之中的时候,我们会发现: Lucene的索引过程,就是按照全文检索的基本过程,将倒排表写成此文件格式的过程. Lucene的搜索过程,就是按照此文件格式将索引进去的信息读出来,然后计算每篇文档打分(score)的过程. 本文详细解读了Apache Lucene - Index File Formats(http://lucene.apache.or…

Lucene学习总结之二：Lucene的总体架构 2014-06-25 14:12 622人阅读评论(0) 收藏

Lucene总的来说是: 一个高效的,可扩展的,全文检索库. 全部用Java实现,无须配置. 仅支持纯文本文件的索引(Indexing)和搜索(Search). 不负责由其他格式的文件抽取纯文本文件,或从网络中抓取文件的过程. 在Lucene in action中,Lucene 的构架和过程如下图, 说明Lucene 是有索引和搜索的两个过程,包含索引创建,索引,搜索三个要点. 让我们更细一些看Lucene的各组件: 被索引的文档用Document对象表示. IndexWriter 通过函数a…

Lucene学习总结之五：Lucene段合并(merge)过程分析 2014-06-25 14:20 537人阅读评论(0) 收藏

一.段合并过程总论 IndexWriter中与段合并有关的成员变量有: HashSet<SegmentInfo> mergingSegments = new HashSet<SegmentInfo>(); //保存正在合并的段,以防止合并期间再次选中被合并. MergePolicy mergePolicy = new LogByteSizeMergePolicy(this);//合并策略,也即选取哪些段来进行合并. MergeScheduler mergeScheduler = n…

Makefile 入门与基本语法分类： C/C++ ubuntu 2015-05-18 11:16 466人阅读评论(0) 收藏

在我看来,学会写简单的Makefile,阅读较复杂的makefile,是每一个Linux程序员都必须拥有的基本素质.Makefile可以自动识别哪些源文件被更改过,需要重新编译,那些不需要.从而节省大型工程重新编译的时间.规则如下: 如果这个工程没有编译过,那么我们的所有C文件都要编译并被链接. 如果这个工程的某几个C文件被修改,那么我们只编译被修改的C文件,并链接目标程. 如果这个工程的头文件被改变了,那么我们需要编译引用了这几个头文件的C文件,并链接目标程序. 学会编写Makefile,不仅…

解析ASP.NET Mvc开发之查询数据实例分类： ASP.NET 2014-01-02 01:27 5788人阅读评论(3) 收藏

目录: 1)从明源动力到创新工场这一路走来 2)解析ASP.NET WebForm和Mvc开发的区别 --------------------------------------------------------------------------------------------------------------------------------------------------------- 对于.NET平台上开发WebForm项目,程序员操作数据的方法主要是通过使用ADO.N…

【Lucene学习总结之八：Lucene的查询语法，JavaCC及QueryParser 2014-06-25 14:25 722人阅读 评论(1) 收藏】的更多相关文章

【Lucene学习总结之八：Lucene的查询语法，JavaCC及QueryParser 2014-06-25 14:25 722人阅读评论(1) 收藏】的更多相关文章