lucene 基本原理整理 - 相关文章

【lucene 基本原理整理】的更多相关文章

lucene 基本原理整理

基本原理:http://www.cnblogs.com/forfuture1978/archive/2009/12/14/1623594.html 所有过程:http://www.cnblogs.com/forfuture1978/archive/2010/06/13/1757479.html 1.什么是索引,为什么需要索引对非结构化数据也即对全文数据的搜索主要有两种方法: 一种是顺序扫描法(Serial Scanning):所谓顺序扫描,比如要找内容包含某一个字符串的文件,就是一个文档一个文…

lucene基本原理

1.术语 lucene 在存储它的全文索引结构时,是有层次结构的,这涉及到5个层次:索引(Index):段(Segment):文档(Document):域(Field):词(Term),他们的关系如下图所示:(lucene 索引存储结构概念图) 下图是Lucene生成的索引的一个实例,右边是对这5个层次的描述: 2.基本原理 2.1 lucene架构 2.2 创建索引 IndexWriter W = new IndexWriter(FSDirectory.open(indexdir), new …

理解Lucene中的Query

Query是一个接口,它有很多实现类. QueryParser是Query解析器,用于将一个字符串解析为一个Query对象,这个Query对象可能属于TermQuery,也可能属于PhraseQuery.TermQuery.BooleanQuery等.可以通过Query对象的getClass()方法来查看这个对象到底是哪个实现类. Lucene已经给我们提供了很多Query查询器,如PhraseQuery,SpanQuery那为什么还要提供QueryParser呢?或者说设计QueryParse…

Lucene整理--索引的建立

看lucene主页(http://lucene.apache.org/)上眼下lucene已经到4.9.0版本号了, 參考学习的书是依照2.1版本号解说的,写的代码样例是用的3.0.2版本号的,版本号的不同导致有些方法的使用差异,可是大体还是同样的. 源码用到的jar包(3.0.2版本号)下载地址參考资料: 1.公司内部培训资料 2.<Lucene搜索引擎开发权威经典>于天恩著. Lucene使用挺简单的,耐心看完都能学会,还有源码. 一.创建索引的基本方式全部开源搜索引擎的基本架构和原…

Lucene学习总结：全文检索的基本原理

一.总论根据http://lucene.apache.org/java/docs/index.html定义: Lucene是一个高效的,基于Java的全文检索库. 所以在了解Lucene之前要费一番工夫了解一下全文检索. 那么什么叫做全文检索呢?这要从我们生活中的数据说起. 我们生活中的数据总体分为两种:结构化数据和非结构化数据. 结构化数据:指具有固定格式或有限长度的数据,如数据库,元数据等. 非结构化数据:指不定长或无固定格式的数据,如邮件,word文档等. 当然有的地方还会提到第三种,半…

lucene 专业名词作用整理

是否切词:对关键词是否切分,举例,姓名域的一个值:"张三" , 是否切分成"张"."三"等等多个term. 是否索引:建立索引的时候是否对该字段域对应的数据建立索引.是不是放到倒排表中,此域的关键字与document之间的对应关系存不存在即反向关系存不存在,通过term能不能定位到document 是否存储:对此字段域的数据进行获取时,是否能还原! document.get("fieldName") 能不能得到内容 //先写着…

Lucene 对文档打分的规则整理记录

摘引自:http://www.cnblogs.com/forfuture1978/archive/2010/02/08/1666137.html Lucene的搜索结果默认按相关度排序,这个相关度排序是基于内部的Score和DocID,Score又基于关键词的内部评分和做索引时的 boost.默认Score高的排前面,如果Score一样,再按索引顺序,先索引的排前面. Sort groupSort = new Sort(new SortField("排序字段name", SortFie…

lucene 检索流程整理笔记

…

lucene文件格式待整理

这是之前Lucene3.0生成的索引格式 a表…

Lucene学习笔记：一，全文检索的基本原理

一.总论根据http://lucene.apache.org/java/docs/index.html定义: Lucene是一个高效的,基于Java的全文检索库. 所以在了解Lucene之前要费一番工夫了解一下全文检索. 那么什么叫做全文检索呢?这要从我们生活中的数据说起. 我们生活中的数据总体分为两种:结构化数据和非结构化数据. 结构化数据:指具有固定格式或有限长度的数据,如数据库,元数据等. 非结构化数据:指不定长或无固定格式的数据,如邮件,word文档等. 当然有的地方还会提到第三种,半…