lucene大索引文件分布式存储方案

这几天实现了个Lucene分布式检索的模块，采用的分布式方案是将数据分块，分别生成N个索引文件，放到N个节点上运行。检索时，对每一个节点发出查询请求，将N个节点返回的结果归并，然后生成一个新的结果。如果没看明白，可以看看我的帖子 http://www.iteye.com/topic/212046 ，这个方案同帖子中的思想是一致的。

用这样的方案，遇到的问题是归并过后的结果，同没有归并结果是有一定区别的。在实现这个方案前我也分析过，Lucene使用TF/IDF算法来计算相关度，所以会产生这样的问题：

100万条数据，分别索引成2个50万数据的索引文件A，B和100万条数据的索引文件C。这样，A、B、C3个文件的IDF都不相同，所以搜索出来的结果将会不同。但是如果是海量数据，IDF值从统计学角度上来说应该是非常相似的，所以搜索出的结果大体上来说是一样的。

今天专门做了一个实验，取100万条数据做测试，每个节点50万数据，进行几个关键词的检索，同包含100万条同样数据的索引文件比较，取前100项统计有多少项不同。数据是类似www.net114.com这样的类型的数据，下面是结果（同位置是指在100条数据中，位置相同的数据。非交集指那些分布式检索返回的结果，不在集中式检索的结果之中的数据）：

关键字：公司
同位置:0条
非交集:12条

“公司”这个关键字返回的结果非常多，基本返回整个数据集中的数据。这个测试针对的是目的非常模糊的查询。

关键字：永恒公司
同位置:4条
非交集:0条

返回的结果中等，针对有一定目的的查询。

关键字：中国石油
同位置:1条
非交集:0条

针对比较精确的查询，返回的结果最前面基本都是中国石油开头的数据。

可以看到，同之前的分析结果类似，进行这样的分布式检索，基本上同集中式检索获取到的数据是相同的，但是排序不同。我已经截图下来了，但是这里貌似没法发……总体上来说，我这些精度损失在我的项目中还是可以接受的，对“公司”这种返回结果很多，搜索目的非常模糊的检索，头10项相差得比较大。但是这种搜索本身要求的精度就不是很高。而对于比较精确的搜索，头10项相差得很小，要是有兴趣的话我找个地方上传图片给大家看看。

至于性能，经过100万数据的测试，大体上能提升至少30%的检索时间，偶尔有超过单个节点查询的情况，一般是由于在网络传输层中有一些延时造成的，有的也是我系统的BUG……。进行分布式的好处在于能够处理一些无法分割的数据，保证在海量数据下也能保持足够的响应速度。

最近准备学习Java（我是用.Net的），不知道大家对这个分布式检索的方案有没有兴趣，如果有兴趣的话我就用Java实现它，希望到时候大家多多指点~~~

amigobot 写道

检索的精度会取决于文档是否是均等的分布于不同的index里面，如果是一个1w, 另一个100w，结果就会差很多了。
可以用remotesearcher, 如果节点不再用一个JVM, 如果是同一个里面, 用multisercher就行了，里面回计算全局TF/IDF。
remotesearcher基本不能用于企业级应用。

精度问题，其实有办法解决，从我的应用来看，TF/IDF应该自己作为一个文件保存。查询时去读取保存有所有数据的TF/IDF的表，就能保证每个节点的评分都是一致的。而且，还可以做出一些扩展的东西，比如我要搜索某个行业中的数据，可以专门做一个TF/IDF表，对该行业中的某些关键字加权，这样搜出来的结果会更加符合。但是这样就要修改Lucene的源码了，这个目前我还没做，因为感觉现在这样搜出来的结果也不错。

不过为什么说remotesearcher基本不能用于企业级应用呢？我也没有在大规模的集群上测试过，目前几台计算机来看效果还可以。方便的话不妨说下，谢谢。

lucene大索引文件分布式存储方案的更多相关文章

Solr4.8.0源码分析(12)之Lucene的索引文件(5)
Solr4.8.0源码分析(12)之Lucene的索引文件(5) 1. 存储域数据文件(.fdt和.fdx) Solr4.8.0里面使用的fdt和fdx的格式是lucene4.1的.为了提升压缩比,S ...
Solr4.8.0源码分析(11)之Lucene的索引文件(4)
Solr4.8.0源码分析(11)之Lucene的索引文件(4) 1. .dvd和.dvm文件 .dvm是存放了DocValue域的元数据,比如DocValue偏移量. .dvd则存放了DocValu ...
Solr4.8.0源码分析(10)之Lucene的索引文件(3)
Solr4.8.0源码分析(10)之Lucene的索引文件(3) 1. .si文件 .si文件存储了段的元数据,主要涉及SegmentInfoFormat.java和Segmentinfo.java这 ...
Solr4.8.0源码分析(8)之Lucene的索引文件(1)
Solr4.8.0源码分析(8)之Lucene的索引文件(1) 题记:最近有幸看到觉先大神的Lucene的博客,感觉自己之前学习的以及工作的太为肤浅,所以决定先跟随觉先大神的博客学习下Lucene的原 ...
Solr4.8.0源码分析(9)之Lucene的索引文件(2)
Solr4.8.0源码分析(9)之Lucene的索引文件(2) 一. Segments_N文件一个索引对应一个目录,索引文件都存放在目录里面.Solr的索引文件存放在Solr/Home下的core/ ...
IIs 网站应用程序与虚拟目录的区别及高级应用说明（文件分布式存储方案）
原文 IIs 网站应用程序与虚拟目录的区别及高级应用说明(文件分布式存储方案) 对于IIS网站,大伙用的比较多,就不啰嗦了. 今天和说说大伙比较少使用的"IIS应用程序”和虚拟目录的区别 ...
图片文件分布式存储方案设计模式(c#--sqlserver)
1.为了降低web服务器的压力,申请了2台文件服务器,用来存放图片文件.但是两台文件服务器如何让程序自己选择呢? 于是我用了一个算法,思路如下: 从状态表筛选出可用的图片服务器集合记作C,并获取集合的 ...
Lucene系列-索引文件
本文介绍下lucene生成的索引有哪些文件组成,每个文件包含了什么信息.基于Lucene 4.10.0. 数据结构索引(index)包含了存储的文档(document)正排.倒排信息,用于文本搜索. ...
Lucene实现索引和查询
0引言随着万维网的发展和大数据时代的到来,每天都有大量的数字化信息在生产.存储.传递和转化,如何从大量的信息中以一定的方式找到满足自己需求的信息,使之有序化并加以利用成为一大难题.全文检索技术是现如 ...

随机推荐

hadoop伪分布式平台搭建（centos 6.3）
最近要写一个数据量较大的程序,所以想搭建一个hbase平台试试.搭建hbase伪分布式平台,需要先搭建hadoop平台.本文主要介绍伪分布式平台搭建过程. 目录: 一.前言二.环境搭建三.命令测试 ...
Centos7 and docker practices
1. Failed to get D-Bus connection: Operation not permitted error when you execute the systemctl star ...
java设计模式之观察者模式
观察者模式观察者模式(有时又被称为发布(publish )-订阅(Subscribe)模式.模型-视图(View)模式.源-收听者(Listener)模式或从属者模式)是软件设计模式的一种.在此种模 ...
openstack学习（二）虚拟机XML文件
1 , XML文件 <domain type='kvm'> //如果是Xen,则type=‘xen’ <name>ubuntu</name> //虚拟机名称,同一物 ...
sublime 插件
由于之前的代码可视化方案太复杂,分析时间太长,不实用,另一方面是而且工作以后业余时间大大减少,因此决定放弃原有路线,从工作中最迫切的需求着手,逐步构建一个实用的工具. 新的方法仍然依赖understa ...
JSLint检测Javascript语法规范
前端javascript代码编写中,有一个不错的工具叫JSLint,可以检查代码规范化,压缩JS,CSS等,但是他的语法规范检查个人觉得太“苛刻”了,会提示各种各样的问题修改建议,有时候提示的信息我们 ...
使用codemodel生成Java代码
例子 JCodeModel cm = new JCodeModel(); JDefinedClass dc = cm._class("foo.Bar"); dc.annotate( ...
js 检测页面刷新或关闭
window.onbeforeunload=function(){ //要提交的内容 return "随意写";//必须有return ,不然只有ie有效,chrome无效 }
JavaScript中的this陷阱的最全收集没有之一
当有人问起你JavaScript有什么特点的时候,你可能立马就想到了单线程.事件驱动.面向对象等一堆词语,但是如果真的让你解释一下这些概念,可能真解释不清楚.有句话这么说:如果你不能向一个6岁小孩解 ...
JavaScript类库---JQuery（一）
1.基础: Jquery类库定义了一个全局函数:JQuery(); 别名$.是JQuery在全局命名空间中定义的唯一两个变量.返回一个新创建的JQuery对象: 另:JQuery中定义的许多方法返回值 ...

lucene大索引文件分布式存储方案

lucene大索引文件分布式存储方案的更多相关文章

随机推荐

热门专题