看Lucene源码必须知道的基本规则和算法

　　上中学的时候写作文，最喜欢的季节我都是写冬天。虽然是因为写冬天的人比较少，那时确实也是对其他季节没有什么特殊的偏好，反而一到冬天，自己皮肤会变得特别白。但是冬天啊，看到的只有四季常青盆栽：瓜栗(就是发财树，好吧，算我矫情，反正我不喜欢这个名字)，绿萝，永远看不到它开花的巴西铁，富贵竹，散尾葵……过年的时候家里的杜鹃就开花了，零星的几朵小花儿更突显了这个季节的凄凉。红掌，蝴蝶兰总是美美的在那里，开不败却看不到生机。插到水里的勿忘我，洋桔梗，看到他们也只会联想到过几天他们会枯萎的命运。春天来了，先是迎春花，然后是桃花，玉兰。到了四月，红叶碧桃，紫荆，樱花，紫叶李，垂丝海棠……最喜欢丁香花的味道~~再过几日，郁金香和牡丹也该开了。桃之夭夭，灼灼其华。果然，阳光下这些花儿是流光溢彩的。人生的悲哀不是短暂的快乐过后无尽的痛苦，而是从来没让自己快乐过。想想小鲜肉看的《熊出没-雪岭熊风》电影，熊二没有再次遇到团子之前的魂儿不守舍，与团子经历过精彩之后，虽然别人什么都不记得了，所有的场景回到了最初，熊二心里却是满足和平静。就像这些花儿，虽然是花开不多时，但怒放过的青春总好过冬青一日和一生毫无区别（中学作文里还总是在赞扬它冬天还是绿的呢[此处有表情]）。大概现在和中学的时候最大的区别，就是那时候的人生观更多的是受父母的影响。父母都是医生，铁饭碗，稳定是一成不变的追求。离父母越来越远，活得越来越像自己，才发现自己的人生需要冬天的期待与思考，春天花的妖娆，夏天叶的茂盛，秋天果实的沉重。谁规定的第一个季节是春天？我的人生第一个季节就不是

　　下面介绍一些Lucene使用基本规则和算法。这些规则和算法的选择，都和Lucene和支持TB级的倒排索引有关。

　　前缀后缀规则(Prefix+Suffix):在Lucene的反向索引中，要保存词典的信息，所有的词再词典中是按照字典顺序进行排列的，然后词典中包含了文档中的几乎所有的词，并且有的词还是很长的，这样索引文件会非常的大，所谓前缀后缀规则，就是某个词和前一个词有共同的前缀的时候，后面的词仅仅保存前缀在词中的偏移(offset)，和剩下的部分(后缀)。

　　比如：北京天安门这个词词典里通常都会包含北京天安门北京天安门这三个词。北京和北京天安门由于前缀相同，在字典表里会相邻存储，两个词存成北京2天安门，这样存比北京北京天安门省空间。

　　差值规则(Delta):在lucene的反向索引中，需要保存很多整形数字的信息，比如文档ID号，比如词在文档中的位置等等。整形数字是以可变长整型的格式存储的。随着数值的增大，每个数字占用的比特位增多。所谓差值规则就是先后保存两个整数的时候，后面的整数仅仅保存和前面整数的差即可。

　　跳跃表规则(Skip list):跳跃表是一种数据结构，下面给出麻省理工学院网易公开课介绍跳跃表的地址:http://open.163.com/movie/2010/12/7/S/M6UTT5U0I_M6V2TTJ7S.html。Lucene3.0之前很多地方使用这种数据结构来提高查找速度。但是因为它对模糊查询的支持不太好，现在Lucene改用FST了。

　　有限自动机算法(FST,Finite State Transducer):通过输入有序字符串构建最小有向无环图。通过共享前缀来节省空间，内存存放前缀索引，磁盘存放后缀词块。Lucene的源码中可以看到它的具体实现。

　　Lucene之所以有那么频繁的版本升级，我以前还专门追剧似的关心这个升级，是因为这里面有一个问题的发生与解决的过程，举个简单的例子：在Windows系统中一个文件夹只能存放2W多个文件，在1W多个文件以后写入速度会急剧下降，Lucene这样处理TB级数据的系统更要考虑数据量和性能的关系和权衡。

　　上面的跳跃表和有限自动机是Lucene的核心查找算法，理解需要一定的时间。下面介绍Lucene的打分相关规则，这部分很容易理解。

　　文档权重(Document boost)：在索引时给某个文档设置的权重值。

　　域权重(Field boost)：在查询的时候给某个域设置的权重值。

　　调整因子(Coord)：基于文档中包含查询关键词个数计算出来的调整因子。一般而言，如果一个文档中相比其它的文档出现了更多的查询关键词，那么其值越大。

　　逆文档频率(Inerse document frequency)：基于Term的一个因子，存在的意义是告诉打分公式一个词的稀有程度。其值越低，词越稀有(这里的值是指单纯的频率，即多少个文档中出现了该词；而非指Lucene中idf的计算公式)。打分公式利用这个因子提升包含稀有词文档的权重。

　　长度归一化(Length norm)：基于域的一个归一化因子。其值由给定域中Term的个数决定(在索引文档的时候已经计算出来了，并且存储到了索引中)。域越的文本越长，因子的权重越低。这表明Lucene打分公式偏向于域包含Term少的文档。

　　词频(Term frequency)：基于Term的一个因子。用来描述给定Term在一个文档中出现的次数，词频越大，文档的得分越大。

　　查询归一化因子(Query norm)：基于查询语句的归一化因子。其值为查询语句中每一个查询词权重的平方和。查询归一化因子使得比较不同查询语句的得分变得可行，当然比较不同查询语句得分并不总是那么易于实现和可行的。

看Lucene源码必须知道的基本规则和算法的更多相关文章

看Lucene源码必须知道的基本概念
终于有时间总结点Lucene,虽然是大周末的,已经感觉是对自己的奖励,毕竟只是喜欢,现在的工作中用不到的.自己看源码比较快,看英文原著的技术书也很快.都和语言有很大关系.虽然咱的技术不敢说是部门第一的 ...
lucene源码分析(4)Similarity相似度算法
lucene 7.5.0默认的评分Similarity是BM25Similarity (IndexSearcher.java) // the default Similarity private st ...
细说Lucene源码(一)：索引文件锁机制
大家都知道,在多线程或多进程的环境中,对统一资源的访问需要特别小心,特别是在写资源时,如果不加锁,将会导致很多严重的后果,Lucene的索引也是如此,lucene对索引的读写分为IndexReader ...
Lucene源码
看Lucene源码必须知道的基本概念终于有时间总结点Lucene,虽然是大周末的,已经感觉是对自己的奖励,毕竟只是喜欢,现在的工作中用不到的.自己看源码比较快,看英文原著的技术书也很快.都和语言有很 ...
【实习记】2014-08-15文档太少看着源码用cgicc+stl库之模板谓词函数对象
总结1: 今天找到了昨天scanf的问题答案,scanf与printf一样的神奇而复杂,稍不留神,就会被坑.scanf函数在读入非空白符分割的多个字符串的解决方法是这个:/* 以 | 分割 * ...
边看MHA源码边学Perl语言之一开篇
边看MHA源码边学Perl语言之一开篇自我简介先简单介绍一下自己,到目前为此我已经做了7年左右的JAVA和3年左右php开发与管理,做java时主要开发物流行业的相关软件,对台湾快递,国际快递,国 ...
Lucene 源码分析之倒排索引（三）
上文找到了 collect(-) 方法,其形参就是匹配的文档 Id,根据代码上下文,其中 doc 是由 iterator.nextDoc() 获得的,那 DefaultBulkScorer.itera ...
带着萌新看springboot源码8（spring ioc源码完）
上一节说到实例化了所有的单实例Bean,后面还有一步遍历 12.完成容器刷新(finishRefresh();) 那个和生命周期有关的后置处理器类型是LifecycleProcessor:监听器原理我 ...
一个lucene源码分析的博客
ITpub上的一个lucene源码分析的博客,写的比较全面:http://blog.itpub.net/28624388/cid-93356-list-1/

随机推荐

iOS 访问URL转码
访问URL时,需要对字符串进行转码: urlStr = [urlStr stringByAddingPercentEscapesUsingEncoding:NSUTF8StringEncoding]; ...
Android.mk模板（持续更新中）
此文列出Android.mk的常用模板(部分内容源于多篇他人博客,这里不具体指出),如有错漏,还请在评论中指出,后期持续更新 #链接第三方动态库,在和部分android源码的编译中验证不过 LOC ...
angular : direative : scope | 指令scope里的符号@，=
先看看以下的代码 <body ng-app="app" ng-controller="ctrl"> <dir myname="nam ...
Protobuf学习 - 入门
古之立大事者,不惟有超世之才,亦必有坚忍不拔之志 -- 苏轼·<晁错论> 从公司的项目源码中看到了这个东西,觉得挺好用的,写篇博客做下小总结.下面的操作以C++为编程语言,protoc的版 ...
HTML5之多媒体
概览 html5新增了两个关于多媒体的元素:video和audio,前者是用于视频,后者用于音频.而他们使用非常简单 <audio src="xhn.mp3" control ...
MDX 用Ancestors得到Hierarchy中指定Level的值（附带SCOPE用法之一）
需求:用户想要用Excel,对比每月预算和整年预算,需要在两个用户定义的Hierarchy都可以浏览.财年季月日(FYQMD)和财年月日(FYMD). 自定义hierarchy 属性关系(Attrib ...
1574: [Usaco2009 Jan]地震损坏Damage
1574: [Usaco2009 Jan]地震损坏Damage Time Limit: 10 Sec Memory Limit: 64 MBSubmit: 425 Solved: 232[Subm ...
iOS项目之同时点击多个按钮解决方案
自己的项目完成后,在测试中出现了一个情况,同时点击界面中的多个按钮,会跳转多个界面.然后又看了看别的app,发现也有这样的情况, 如图上面是我手机上美团app的截图,上面的分类同时选择多个时,只能跳 ...
js动态加载的蒙板弹框
我们访问一些网站时总会遇到这种点击后,背景像被打上一层模板一样,这个是怎么做到的呢? 它是将这个弹框div独立于页面容器wrap,设置position为absolute,将其水平垂直之后都居中,设置弹 ...
HTML5学习笔记<三>: HTML5样式, 连接和表格
HTML样式 1, 标签: <style>: 样式定义 <link>: 资源引用 2. 属性: rel="stylesheet": 外部样式表 type=& ...

看Lucene源码必须知道的基本规则和算法

看Lucene源码必须知道的基本规则和算法的更多相关文章

随机推荐

热门专题