lucene 基本原理整理】的更多相关文章

基本原理:http://www.cnblogs.com/forfuture1978/archive/2009/12/14/1623594.html 所有过程:http://www.cnblogs.com/forfuture1978/archive/2010/06/13/1757479.html 1.什么是索引,为什么需要索引 对非结构化数据也即对全文数据的搜索主要有两种方法: 一种是顺序扫描法(Serial Scanning):所谓顺序扫描,比如要找内容包含某一个字符串的文件,就是一个文档一个文…
1.术语 lucene 在存储它的全文索引结构时,是有层次结构的,这涉及到5个层次:索引(Index):段(Segment):文档(Document):域(Field):词(Term),他们的关系如下图所示:(lucene 索引存储结构概念图) 下图是Lucene生成的索引的一个实例,右边是对这5个层次的描述: 2.基本原理 2.1 lucene架构 2.2 创建索引 IndexWriter W = new IndexWriter(FSDirectory.open(indexdir), new …
Query是一个接口,它有很多实现类. QueryParser是Query解析器,用于将一个字符串解析为一个Query对象,这个Query对象可能属于TermQuery,也可能属于PhraseQuery.TermQuery.BooleanQuery等.可以通过Query对象的getClass()方法来查看这个对象到底是哪个实现类. Lucene已经给我们提供了很多Query查询器,如PhraseQuery,SpanQuery那为什么还要提供QueryParser呢?或者说设计QueryParse…
看lucene主页(http://lucene.apache.org/)上眼下lucene已经到4.9.0版本号了, 參考学习的书是依照2.1版本号解说的,写的代码样例是用的3.0.2版本号的,版本号 的不同导致有些方法的使用差异,可是大体还是同样的. 源码用到的jar包(3.0.2版本号)下载地址 參考资料: 1.公司内部培训资料 2.<Lucene搜索引擎开发权威经典>于天恩著. Lucene使用挺简单的,耐心看完都能学会,还有源码. 一.创建索引的基本方式 全部开源搜索引擎的基本架构和原…
一.总论 根据http://lucene.apache.org/java/docs/index.html定义: Lucene是一个高效的,基于Java的全文检索库. 所以在了解Lucene之前要费一番工夫了解一下全文检索. 那么什么叫做全文检索呢?这要从我们生活中的数据说起. 我们生活中的数据总体分为两种:结构化数据和非结构化数据. 结构化数据:指具有固定格式或有限长度的数据,如数据库,元数据等. 非结构化数据:指不定长或无固定格式的数据,如邮件,word文档等. 当然有的地方还会提到第三种,半…
是否切词:对关键词是否切分,举例,姓名域的一个值:"张三" , 是否切分成"张"."三"等等多个term. 是否索引:建立索引的时候是否对该字段域对应的数据建立索引.是不是放到倒排表中,此域的关键字与document之间的对应关系存不存在即反向关系存不存在,通过term能不能定位到document 是否存储:对此字段域的数据进行获取时,是否能还原! document.get("fieldName") 能不能得到内容 //先写着…
摘引自:http://www.cnblogs.com/forfuture1978/archive/2010/02/08/1666137.html Lucene的搜索结果默认按相关度排序,这个相关度排序是基于内部的Score和DocID,Score又基于关键词的内部评分和做索引时的 boost.默认Score高的排前面,如果Score一样,再按索引顺序,先索引的排前面. Sort groupSort = new Sort(new SortField("排序字段name", SortFie…
这是之前Lucene3.0生成的索引格式 a表…
一.总论 根据http://lucene.apache.org/java/docs/index.html定义: Lucene是一个高效的,基于Java的全文检索库. 所以在了解Lucene之前要费一番工夫了解一下全文检索. 那么什么叫做全文检索呢?这要从我们生活中的数据说起. 我们生活中的数据总体分为两种:结构化数据和非结构化数据. 结构化数据:指具有固定格式或有限长度的数据,如数据库,元数据等. 非结构化数据:指不定长或无固定格式的数据,如邮件,word文档等. 当然有的地方还会提到第三种,半…