Lucene 的索引体系是一个写独占,读共享的结构,这意味着,我们在使用多线程进行添加索引时,性能并不会得到明显的提升,所以任何时刻只能有一个线程对索引进行写 入操作,而保障这个操作的安全性则是来自于,Lucene独特的锁机制(写入操作进行时,我们可以在Lucene的索引根目录里看到一个命名为 write.lock的锁文件),如果同一时刻有多个不同IndexWriter对索引进行写入操作,那么将会引发锁重叠异常,所以Lucene的特殊的 索引结构,决定了其只能使用一个IndexWriter对索引进行添加操作。

即使是限定Lucen只能使用一个线程进行写入操作,Lucene的写入性能也是非常高效的,特别是在Lucene4.x之后,更是优异,我们可以根据自己服务器的硬件环境,来调优一些参数,利用上批处理的特性,可以大大提升写入性能。



前面说过,Lucene写入时只能用一个线程操作,那么假如我们想使用多线程写入来提速可以吗?

答案是肯定的,虽然Lucene限定只能用一个线程写入,但是这个限制仅仅指的是对一个索引文件的限制,我们可以采取一种折中的方式,利用多个线
程写入多个索引文件夹目录,最后在对这几个索引文件合并,由此来提升索引速度,Lucene的API也支持多个索引文件的合并,所以采用这种方式来建索
引,也能够大大的提升索引性能,这种方式尤其适用于对数据库的数据建索引,我们可以采用分页读的方式,由某个固定数目的线程来建索引。

本篇散仙就来介绍下,如何使用LuceneD的API
来对多个索引文件进行合并操作,合并操作大多数时候要求我们的数据结构是要一致的,当然Lucene是一种文档型的松散的存储结构,某个文档里也可以存储
自己特有的字段,而其他的文档里,则没有,不过既然是我们需要合并,那么就要求大多数的结构是要一致的,否则两个完全不同类型的索引,合并到一起也是不符
合逻辑的。

散仙为了演示合并,就建立了2份索引,然后对这两份索引进行合并。截图如下:

合并的核心代码如下:

<pre name="code" class="java">/***

* @author 秦东亮

* lucene 技术交流群:324714439

* 测试多个索引之间

* 进行合并的方法

* **/

  public static void combineMoreIndex(){

 

  try{

  Directory d1=FSDirectory.open(new File("E:\\1\\a"));//打开存放索引1的路径

  Directory d2=FSDirectory.open(new File("E:\\2\\a"));//打开存放索引2的路径

 

  Directory d3=FSDirectory.open(new File("E:\\3\\ab"));//合并到索引3里面

 

   IndexWriter writer=new IndexWriter(d3, new IndexWriterConfig(Version.LUCENE_44, new IKAnalyzer()));

 

   writer.addIndexes(d1,d2);//传入各自的Diretory或者IndexReader进行合并

   writer.commit();//提交索引

   writer.close();

   System.out.println("合并索引完毕.........");

 

 

  }catch(Exception e){

  e.printStackTrace();

  }

  }</pre>

生成的第三份索引,截图如下:

下面我们来看下,合并前,1,2索引和合并后的3索引的数据变化信息。

<pre name="code" class="java">  System.out.println("==============1a=========================");

   showAll("E:\\1\\a");

   System.out.println("==============2a=========================");

   showAll("E:\\2\\a");

   System.out.println("==============合并后=========================");

   showAll("E:\\3\\ab");</pre>

输出结果如下,注意里面有日期为null的,代表这个文档没有日期的这个字段。

<pre name="code" class="java">==============1a=========================

a===>中国  日期: ===> null

b===>法国  日期: ===> 1389783935597

c===>中国  日期: ===> null

d===>英国  日期: ===> null

==============2a=========================

q===>中国  日期: ===> null

w===>法国  日期: ===> 1389783980586

r===>中国  日期: ===> null

d===>英国  日期: ===> null

==============合并后=========================

a===>中国  日期: ===> null

b===>法国  日期: ===> 1389783935597

c===>中国  日期: ===> null

d===>英国  日期: ===> null

q===>中国  日期: ===> null

w===>法国  日期: ===> 1389783980586

r===>中国  日期: ===> null

d===>英国  日期: ===> null

</pre>

http://www.iteye.com/job/topic/1133159的更多相关文章

  1. HBase如何选取split point

    hbase region split操作的一些细节,具体split步骤很多文档都有说明,本文主要关注regionserver如何选取split point 首先推荐web ui查看hbase regi ...

  2. jvm的代码缓存耗尽导致性能下降

    在没遇到这个问题之前,我对JVM的解释模式与编译模式的代码性能相差有多大,是没有感觉的,只是觉得编译模式会比解释模式性能好那么一点点吧. 但是经历过这次以后,让我对JVM的即时编译产生了兴趣.先来看看 ...

  3. kill新号专题

    一.在tomcat启动脚本中看到,kill  -3

  4. javascript 解析dom字符串

    知识要求:1:熟悉dom结构层次(如childNodes,nodeType,parent,children)等. 2:熟悉jq对象转换js 对象,反之 毕竟不是专业js人.借助第3方框架.其实jq也是 ...

  5. 关于Thread.getContextClassLoader的使用场景问题

    Thread context class loader存在的目的主要是为了解决parent delegation机制下无法干净的解决的问题.假如有下述委派链: ClassLoader A -> ...

  6. JAVA 汇编语言查看

    http://blog.csdn.net/bingduanlbd/article/details/8524300 http://hllvm.group.iteye.com/group/topic/34 ...

  7. Clr core

    http://hllvm.group.iteye.com/group/topic/43559

  8. DisableExplicitGC和Direct ByteBuffer

    直接堆外内存请参见:http://blog.csdn.net/lantian0802/article/details/39257087 JVM调优请参见:http://hllvm.group.itey ...

  9. 分析java程序中cpu占用过高的线程

    http://blog.csdn.net/jgwei/article/details/12079147 http://hllvm.group.iteye.com/group/topic/38893 h ...

随机推荐

  1. 第二次冲刺spring会议(第四次会议)

    [例会时间]2014/5/7 21:15 [例会地点]9#446 [例会形式]轮流发言 [例会主持]马翔 [例会记录]兰梦 小组成员:兰梦 ,马翔,李金吉,赵天,胡佳奇

  2. [Jmeter]jemeter启动报错,返回错误码 5,处理方法

    今天在使用jmeter的时候,启动GUI,发现bat文件执行有告警,告警内容如下: java.util.prefs.WindowsPreferences <init>WARNING: Co ...

  3. java的克隆

    java有深拷贝和浅拷贝的区别. 浅拷贝:他是指拷贝该对象时,仅仅是拷贝了对象的本身(包括对象的基本数据类变量),不会拷贝引用数据类型的变量,也就是拷贝出来的新对象基本数据类型的值不变,引用数据类型的 ...

  4. ajax传递的数据类型json传递

    $(".del_goods").click(function(){ //删除选中的商品 var clear_data = [];//数组 $("input[name='c ...

  5. 【洛谷P1352】没有上司的舞会

    [洛谷P1352]没有上司的舞会 x舷售 锚」翅θ 但是 拙臃 蓄ⅶ榔 暄条熨卫 翘ヴ馇 表现无愧于雪月工作室的核心管理 爸惚扎掬 颇瓶 芟缆肝 貌痉了 洵┭笫装 嗝◇裴腋 褓劂埭 ...

  6. spring框架--IOC容器,依赖注入

    思考: 1. 对象创建创建能否写死? 2. 对象创建细节 对象数量 action  多个   [维护成员变量] service 一个   [不需要维护公共变量] dao     一个   [不需要维护 ...

  7. log4j配置详解[http://www.iteye.com/topic/378077]

    log4j是一个非常强大的log记录软件,下面我们就来看看在项目中如何使log4j. 首先当然是得到log4j的jar档,推荐使用1.2.X版,下载地址: http://logging.apache. ...

  8. c语言-转义序列

    字符组合是由反斜杠 (\) 后接字母或位组合构成的字符组合.若要显示换行符,单引号或某些其他字符在字符串末尾,必须使用转义序列. 转义序列被视为单个字符,因此,它是有效的字符常数. 转义序列通常用于指 ...

  9. 《Windows驱动开发技术详解》之编程加载NT式驱动

    之前我们加载驱动都是利用INSTDRV这个应用,其原理是在注册表中写入相应的字段,这一节我们手动编写代码去加载驱动,其原理类似:

  10. WHM API 1 - createacct

    WHM API 1 - createacct     Skip to end of metadata   Created by Sync User, last modified on Sep 29, ...