Lucene 查询分页技术

常用的Lucene查询代码如下所示，该代码的作用是将path路径下的所有索引信息返回

 public String matchAll(String path) {

         try {

             Directory directory = FSDirectory.open(new File(path));

             DirectoryReader reader = DirectoryReader.open(directory);

             IndexSearcher searcher = new IndexSearcher(reader);

             MatchAllDocsQuery query = new MatchAllDocsQuery();

             ScoreDoc[] hits = searcher.search(query, null, Integer.MAX_VALUE).scoreDocs;

             StringBuffer buffer = new StringBuffer();

             for (int i = 0; i < hits.length; i++) {

                 Document hitDocument = searcher.doc(hits[i].doc);

 //                System.out.println(hitDocument.get("key")

 //                        + "......"+hitDocument.get("value"));

                 buffer.append(hitDocument.get("key")+";"+hitDocument.get("value")+"|");

             }

             return buffer.toString();

         } catch (IOException e) {

             e.printStackTrace();

         }

         return null;

     }

但是当该文件夹下索引的数目比较巨大，那么在执行以下代码的时候，则会出现java.lang.OutOfMemoryError: Java heap space的提示

ScoreDoc[] hits = searcher.search(query, null, Integer.MAX_VALUE).scoreDocs;

这时候，我们可以考虑使用分页技术，比如以前大约1亿条数据，我们可以将其分成100个100W的页，每次对100W条索引数据进行处理，这样就可以避免上述情况的发生。在Lucene 中，我们使用searchAfter的方法实现上述功能。它的官方API介绍如下所示：

public TopDocs searchAfter(ScoreDoc after,

                  Query query,

                  int n)

                    throws IOException

Finds the top n hits for query where all results are after a previous result (after).

By passing the bottom result from a previous page as after, this method can be used for efficient 'deep-paging' across potentially large result sets.

Throws:: BooleanQuery.TooManyClauses; IOException

 private String transToContent(IndexSearcher searcher,TopDocs topDocs) throws IOException {

         ScoreDoc[] scoreDocs = topDocs.scoreDocs;

         StringBuffer sb = new StringBuffer();

         for(int i=0; i<scoreDocs.length; i++) {

             Document doc  = searcher.doc(scoreDocs[i].doc);

             sb.append(doc.get("key")+";"+doc.get("value")+"|");

         }

         return sb.toString();

     }

     private void matchAll(String path) {

         try {

             Directory directory = FSDirectory.open(new File(path));

             DirectoryReader reader = DirectoryReader.open(directory);

             IndexSearcher searcher = new IndexSearcher(reader);

             ScoreDoc after = null;

             TopDocs topDocs = searcher.searchAfter(after, new MatchAllDocsQuery(), Preference.PAGE_SIZE);

             int curPage = 1;

             while(topDocs.scoreDocs.length > 0) {

                 System.out.println("Current Page:"+ (curPage++) );

                 System.out.println(transToContent(searcher, topDocs));

                 after = topDocs.scoreDocs[topDocs.scoreDocs.length -1];

                 topDocs = searcher.searchAfter(after, new MatchAllDocsQuery(), Preference.PAGE_SIZE);

             }

         } catch (IOException e) {

             e.printStackTrace();

         }

     }

Lucene 查询分页技术的更多相关文章

lucene 查询+分页+排序
lucene 查询+分页+排序 1.定义一个工厂类 LuceneFactory 1 import java.io.IOException; 2 3 import org.apache.lucene.a ...
关于Lucene全文检索相关技术
Lucene技术专门解决海量数据下的模糊搜索问题. Lucene主要完成的是数据预处理.建立倒排索引,及搜索.排名.高亮显示等功能全文检索相关词语概要: 单词和文档矩阵: 文档(Document): ...
Lucene 查询原理传统二级索引方案倒排链合并倒排索引跳表位图
提问: 1.倒排索引与传统数据库的索引相比优势? 2.在lucene中如果想做范围查找,根据上面的FST模型可以看出来,需要遍历FST找到包含这个range的一个点然后进入对应的倒排链,然后进行求并集 ...
Servlet分页技术
这是看韩顺平老师的servlet视频,自己动手写的,楼主看韩顺平老师的servlet是2006制作的,用的是sql server数据库,自己又用的是oracle数据库,所以怕有的同学遇到同样的问题,不 ...
jsp-------------之分页技术（一）
jsp分页技术之: 如下图:百度的喵看上图中卡哇伊的小苗的爪子下面的数字,就是分页啦!那我们如何做出这样一个效果呢? 下面我们来逐一分解: jsp分页技术一 : (算法) /* int pageS ...
关于Ajax无刷新分页技术的一些研究 c#
关于Ajax无刷新分页技术的一些研究 c# 小弟新手,求大神有更好的解决方案,指教下~ 以前做项目,用过GridView的刷新分页,也用过EasyUI的封装好的分页技术,最近在老项目的基础上加新功能, ...
动态多条件查询分页以及排序(一)--MVC与Entity Framework版url分页版
一.前言多条件查询分页以及排序每个系统里都会有这个的代码做好这块可以大大提高开发效率所以博主分享下自己的6个版本的多条件查询分页以及排序二.目前状况不论是ado.net 还是EF ...
Javaweb 第15天 web练习和分页技术
第15天 web练习和分页技术复习day14内容: 学习新技术的思路? 分析功能的思路? 使用queryRunner操作数据库的步骤? ResultSetHandler接口常用实现类(三个重点)? ...
浅谈Java分页技术
话不多言.我们要实现java分页技术,我们首先就需要定义四个变量,他们是: int pageSize;//每页显示多少条记录 int pageNow;//希望现实第几页 int pageCount; ...

随机推荐

Vue工作原理小结
本文能帮你做什么?1.了解vue的双向数据绑定原理以及核心代码模块2.缓解好奇心的同时了解如何实现双向绑定为了便于说明原理与实现,本文相关代码主要摘自vue源码, 并进行了简化改造,相对较简陋,并未考 ...
软工实践-Alpha 冲刺（9/10）
队名:起床一起肝活队组长博客:博客链接作业博客:班级博客本次作业的链接组员情况组员1(队长):白晨曦过去两天完成了哪些任务描述: 已经解决登录注册等基本功能的界面. 完成非功能的主界面制作 ...
WPF和Expression Blend开发实例:Adorner(装饰器)应用实例
装饰器-- 表示用于修饰 UIElement 的 FrameworkElement 的抽象类简单来说就是,在不改变一个UIElement结构的情况下,将一个Visual对象加到它上面. 应用举例: ...
cobbler-web 网络安装服务器套件 Cobbler(补鞋匠)
Cobbler作为一个预备工具,使部署RedHat/Centos/Fedora系统更容易,同时也支持Suse和Debian系统的部署. 它提供以下服务集成: * PXE服务支持 * DHCP服务管 ...
ZY、
【第六周】关于beta测试组员评分标准的若干意见
组名: 新蜂组长: 武志远组员: 宫成荣谢孝淼杨柳李峤项目名称: java俄罗斯方块评分规则:简单的才是坠吼的,本组不想搞个大新闻,所以奉行极简的评分方式.每一个人交给组长一个排名,假如 ...
mybatis update数据时无异常但没更新成功；update异常时如数据超出大小限制，造成死锁
没更新的问题原因: sqlSession.commit(); 没执行commit,但官方文档里有这样的描述:“默认情况下 MyBatis 不会自动提交事务,除非它侦测到有插入.更新或删除操作改变了数据 ...
LoadRunner脚本增强技巧之手动关联
个人认为LoadRunner的手动关联技巧可以看做参数化的一种,区别在与获取参数的来源不同. 一般的参数化:把脚本中一个写死的数值或者字符串用一个变量参数来代替,每次迭代的时候,从本地文件或者数据库中 ...
第103天：CSS3中Flex布局（伸缩布局）详解
一.Flex布局 Flex是Flexible Box的缩写,意为”弹性布局”,用来为盒状模型提供最大的灵活性. 任何一个容器都可以指定为Flex布局. .box{ display: flex; } 行 ...
js function的方法名是一个变量能被重复定义当变量名一致时候会使用最后一个function

Lucene 查询分页技术

Lucene 查询分页技术的更多相关文章

随机推荐

热门专题