转载自http://my.oschina.net/MrMichael/blog/220782

我 们先来看下下面的问题,现在我们的索引里有2亿多的数据,那么现在的需求是,把索引里的全部数据,读取然后写入txt文本里,对于这么一个量级的数据,显 然是不可能一下子全部读取完的,那得要多大的内存才能够支持下来,是一个很恐怖的内存量,所以就引入散仙今天要给大家介绍的一个功能,Lucene的分页 技术。

在介绍分页之前,我们先来看看上面的那个需求,不用分页的解决办法, 

实在lucene里面,每一个索引都会对应一个不重复的docid,而这一点跟Oralce数据库的伪列rownum一样,恰恰正是由于这个docid的
存在,所以让lucene在海量数据检索时从而拥有更好的性能,我们都知道Oracle数据库在分页时,使用的就是伪列进行分页,那么我的lucene也
是一样,既然有一个docid的存在,那么上面的需求就很简单了。

方法一:依次根据每个docid获取文档然后写入txt中,这样的以来,就避免了内存不足的缺点,但是这样单条读取的话,速度上可能会慢一点,但能满足需求无可厚非。伪代码如下

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
    try{
        directory=FSDirectory.open(new File(indexReadPath));//打开索引文件夹
        IndexReader  reader=DirectoryReader.open(directory);//读取目录
        IndexSearcher search=new IndexSearcher(reader);//初始化查询组件
        for(int i=0;i<reader.numDocs();i++){//numDocs可能很大
         Document doc=search.doc(i);//依次获取每个docid对应的Document
        //可以在此部,做个批量操作,加快写入速度
        }  
         
         reader.close();//关闭资源
         directory.close();//关闭连接
         
        }catch(Exception e){
            e.printStackTrace();
        }

Lucene的分页,总的来说有两种形式,总结如下图表格。(如果存在不合适之处,欢迎指正!)

编号 方式 优点 缺点
1 在ScoresDocs里进行分页 无需再次查询索引,速度很快 在海量数据时,会内存溢出
2 利用SearchAfter,再次查询分页 适合大批量数据的分页 再次查询,速度相对慢一点,但可以利用缓存弥补

从上图我们可以分析出,ScoreDocs适合在数据量不是很大的场景下进行分页,而SearchAfter则都适合,所以,我们要根据自己的业务需求,合理的选出适合自己的分页方式。


我们了解这2中分页技术的优缺点之后,我们再来探讨下上面那个读2亿数据存入txt文本里,在这里,SocreDocs不适合这种场景,当然如果你内存足
够大的话,可以尝试下,通用分页分批读取的方式,可以提升我们的写入效率,效果是比单条单条读取的速度是要快很多的。虽然ScoresDocs的分页方式
在本需求上不适合,但是作为示例,下面散仙给出使用ScoreDocs进行分页的代码:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
    try{
        directory=FSDirectory.open(new File(indexReadPath));//打开索引文件夹
        IndexReader  reader=DirectoryReader.open(directory);//读取目录
        IndexSearcher search=new IndexSearcher(reader);//初始化查询组件
         
  
         TopDocs all=search.search(new MatchAllDocsQuery(), 50000);
         int offset=0;//起始位置
         int pageSize=30;//分页的条数
         int total=30;//结束条数
         int z=0;
         while(z<=50){//总分页数
         System.out.println("==============================");
         pageScoreDocs(offset,total,search, all.scoreDocs);//调用分页打印
         offset=(z*pageSize+pageSize);//下一页的位置增量
         z++;//分页数+1;
             total=offset+pageSize;//下一次的结束分页量
         }
         reader.close();//关闭资源
         directory.close();//关闭连接
         
        }catch(Exception e){
            e.printStackTrace();
        }
1
2
3
4
5
6
7
8
9
10
11
12
13
14
public void pageScoreDocs(int offset,int total,IndexSearcher searcher,ScoreDoc[] doc) throws Exception{
        //System.out.println("offset:"+offset+"===>"+total);
        for(int i=offset;i<total;i++){
            //System.out.println("i"+i+"==>"+doc.length);
            if(i>doc.length-1){//当分页的长度数大于总数就停止
                 
                break;
            }else{
         
               Document dosc=searcher.doc(doc[i].doc);
               System.out.println(dosc.get("name"));
            
            }
        }

最后我们来看下使用SearcherAfter进行分页的方式,代码如下:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
    try{
        directory=FSDirectory.open(new File(indexReadPath));//打开索引文件夹
        IndexReader  reader=DirectoryReader.open(directory);//读取目录
        IndexSearcher search=new IndexSearcher(reader);//初始化查询组件
         
         int pageStart=0;
         ScoreDoc lastBottom=null;//相当于pageSize
         while(pageStart<10){//这个只有是paged.scoreDocs.length的倍数加一才有可能翻页操作
             TopDocs paged=null;
             paged=search.searchAfter(lastBottom, new MatchAllDocsQuery(),null,30);//查询首次的30条
             if(paged.scoreDocs.length==0){
                 break;//如果下一页的命中数为0的情况下,循环自动结束
             }
             page(search,paged);//分页操作,此步是传到方法里对数据做处理的
              
             pageStart+=paged.scoreDocs.length;//下一次分页总在上一次分页的基础上
             lastBottom=paged.scoreDocs[paged.scoreDocs.length-1];//上一次的总量-1,成为下一次的lastBottom
         }
         reader.close();//关闭资源
         directory.close();//关闭连接
         
        }catch(Exception e){
            e.printStackTrace();
        }

至此,我们已经了解了lucene中的分页技术,至于,我们在项目中该如何使用,都要根据我们的实际情况处理,因为分页技术常常会跟其他的,排序,过滤,评分等一些技术结合使用。

lucene4.7 分页的更多相关文章

  1. Lucene全文检索技术

    Lucene全文检索技术 今日大纲 ●    搜索的概念.搜索引擎原理.倒排索引 ●    全文索引的概念 ●    使用Lucene对索引进行CRUD操作 ●    Lucene常用API详解 ●  ...

  2. Lucene4.X 高级应用

    Lucene 简介以及使用 Lucene, 一个基于 Java 的开源的全文搜索工具包,可以方便的嵌入到各种应用系统中,实现针对应用的全文索引以及检索功能.目前是 Apache  jakarta 项目 ...

  3. 用Lucene4.5对中文文本建立索引

    这里需要完成一个能对txt文本建立索引,并能完成检索查询.完成这个功能,使用的是Lucene4.5,同时使用其自带的中文分析器. 准备工作是在一个文件夹里面建一些txt文件,这是我的文件结构: 首先要 ...

  4. lucene4.10.2实例(增删改查)

    最新jar和src免费下载:http://download.csdn.net/detail/u011518709/8248403 lucene 包的组成结构:对于外部应用来说索引模块(index)和检 ...

  5. 记一次SQLServer的分页优化兼谈谈使用Row_Number()分页存在的问题

    最近有项目反应,在服务器CPU使用较高的时候,我们的事件查询页面非常的慢,查询几条记录竟然要4分钟甚至更长,而且在翻第二页的时候也是要这么多的时间,这肯定是不能接受的,也是让现场用SQLServerP ...

  6. js实现前端分页页码管理

    用JS实现前端分页页码管理,可以很美观的区分页码显示(这也是参考大多数网站的分页页码展示),能够有很好的用户体验,这也是有业务需要就写了一下,还是新手,经验不足,欢迎指出批评! 首先先看效果图: 这是 ...

  7. JdbcTemplate+PageImpl实现多表分页查询

    一.基础实体 @MappedSuperclass public abstract class AbsIdEntity implements Serializable { private static ...

  8. MVC如何使用开源分页插件shenniu.pager.js

    最近比较忙,前期忙公司手机端接口项目,各种开发+调试+发布现在几乎上线无问题了:虽然公司项目忙不过在期间抽空做了两件个人觉得有意义的事情,一者使用aspnetcore开发了个人线上项目(要说线上其实只 ...

  9. NET Core-TagHelper实现分页标签

    这里将要和大家分享的是学习总结使用TagHelper实现分页标签,之前分享过一篇使用HtmlHelper扩展了一个分页写法地址可以点击这里http://www.cnblogs.com/wangrudo ...

随机推荐

  1. yum安装memcache,mongo扩展以及python的mysql模块安装

    //启动memcached/usr/local/memcached/bin/memcached -d -c 10240 -m 1024 -p 11211 -u root/usr/local/memca ...

  2. MC-设置 止盈

    using System; using System.Drawing; using System.Linq; using PowerLanguage.Function; using ATCenterP ...

  3. NOIP2010-普及组复赛-第一题-数字统计

    题目描述 Description 请统计某个给定范围[L, R]的所有整数中,数字 2 出现的次数. 比如给定范围[2, 22],数字 2 在数 2 中出现了 1 次,在数 12 中出现 1 次,在数 ...

  4. 【FBA】SharePoint 2013自定义Providers在基于表单的身份验证(Forms-Based-Authentication)中的应用

    //http://www.cnblogs.com/OceanEyes/p/custom-provider-in-sharepoint-2013-fba-authentication.html 由于项目 ...

  5. spring AOP 代理机制、执行过程、四种实现方式及示例详解

    1.加载过程 spring首先检测配置文件中的代理配置,然后去加载bean; 如果配置文件中没有配置代理,自然代理不会生效,如果配置了代理,但是代理还没有生效,那么有可能是加载顺序的问题,即在检测到代 ...

  6. js深入理解构造函数和原型对象

    1.在典型的oop的语言中,如java,都存在类的概念,类就是对象的模板,对象就是类的实例.但在js中不存在类的概念,js不是基于类,而是通过构造函数(constructor)和原型链(propoty ...

  7. Oracle Day2 过滤、排序、单行函数

    1.过滤和排序 SQL> --查询10号部门的所有员工信息 SQL> select * from emp ; 未选定行 SQL> ed SP2: 无法创建保存文件 "afi ...

  8. android ndk调用OpenGL 实现纹理贴图Texture

    android ndk调用OpenGL 实现纹理贴图Texture 时间 2014-06-25 05:24:39  CSDN博客 原文  http://blog.csdn.net/chrisfxs/a ...

  9. CCNET+MSBuild+SVN实时构建的优化总结

    本文不是介绍如何使用CCNET+MSBuild+SVN构建自动编译系统,相关的内容可以从很多地方获取,可以再园子里搜一下. 随着我们的SVN库日益壮大,容量达到10G,几十G 甚至更大时,我们发现自动 ...

  10. CSS3的box-sizing属性

    盒模型的宽度,在 IE5.x 以及 Quirks 模式的 IE6/7 中,将 border 与 padding 都包含在 width 之内 W3C标准中的盒模型宽度为内容宽度,不包括内边距paddin ...