lucene4.7 分页

转载自http://my.oschina.net/MrMichael/blog/220782

我们先来看下下面的问题，现在我们的索引里有2亿多的数据，那么现在的需求是，把索引里的全部数据，读取然后写入txt文本里，对于这么一个量级的数据，显然是不可能一下子全部读取完的，那得要多大的内存才能够支持下来，是一个很恐怖的内存量，所以就引入散仙今天要给大家介绍的一个功能，Lucene的分页技术。

在介绍分页之前，我们先来看看上面的那个需求，不用分页的解决办法，
其
实在lucene里面，每一个索引都会对应一个不重复的docid，而这一点跟Oralce数据库的伪列rownum一样，恰恰正是由于这个docid的
存在，所以让lucene在海量数据检索时从而拥有更好的性能，我们都知道Oracle数据库在分页时，使用的就是伪列进行分页，那么我的lucene也
是一样，既然有一个docid的存在，那么上面的需求就很简单了。

方法一:依次根据每个docid获取文档然后写入txt中，这样的以来，就避免了内存不足的缺点，但是这样单条读取的话，速度上可能会慢一点,但能满足需求无可厚非。伪代码如下

try{

directory=FSDirectory.open(new File(indexReadPath));//打开索引文件夹

IndexReader reader=DirectoryReader.open(directory);//读取目录

IndexSearcher search=new IndexSearcher(reader);//初始化查询组件

for(int i=0;i<reader.numDocs();i++){//numDocs可能很大

Document doc=search.doc(i);//依次获取每个docid对应的Document

//可以在此部，做个批量操作,加快写入速度

}

reader.close();//关闭资源

directory.close();//关闭连接

}catch(Exception e){

e.printStackTrace();

}

Lucene的分页，总的来说有两种形式，总结如下图表格。（如果存在不合适之处，欢迎指正！）

编号	方式	优点	缺点
1	在ScoresDocs里进行分页	无需再次查询索引，速度很快	在海量数据时，会内存溢出
2	利用SearchAfter，再次查询分页	适合大批量数据的分页	再次查询，速度相对慢一点，但可以利用缓存弥补

从上图我们可以分析出，ScoreDocs适合在数据量不是很大的场景下进行分页，而SearchAfter则都适合，所以，我们要根据自己的业务需求，合理的选出适合自己的分页方式。

在
我们了解这2中分页技术的优缺点之后，我们再来探讨下上面那个读2亿数据存入txt文本里，在这里，SocreDocs不适合这种场景，当然如果你内存足
够大的话，可以尝试下，通用分页分批读取的方式，可以提升我们的写入效率，效果是比单条单条读取的速度是要快很多的。虽然ScoresDocs的分页方式
在本需求上不适合，但是作为示例，下面散仙给出使用ScoreDocs进行分页的代码：

try{

directory=FSDirectory.open(new File(indexReadPath));//打开索引文件夹

IndexReader reader=DirectoryReader.open(directory);//读取目录

IndexSearcher search=new IndexSearcher(reader);//初始化查询组件

TopDocs all=search.search(new MatchAllDocsQuery(), 50000);

int offset=0;//起始位置

int pageSize=30;//分页的条数

int total=30;//结束条数

int z=0;

while(z<=50){//总分页数

System.out.println("==============================");

pageScoreDocs(offset,total,search, all.scoreDocs);//调用分页打印

offset=(z*pageSize+pageSize);//下一页的位置增量

z++;//分页数+1；

total=offset+pageSize;//下一次的结束分页量

}

reader.close();//关闭资源

directory.close();//关闭连接

}catch(Exception e){

e.printStackTrace();

}

public void pageScoreDocs(int offset,int total,IndexSearcher searcher,ScoreDoc[] doc) throws Exception{

//System.out.println("offset:"+offset+"===>"+total);

for(int i=offset;i<total;i++){

//System.out.println("i"+i+"==>"+doc.length);

if(i>doc.length-1){//当分页的长度数大于总数就停止

break;

}else{

Document dosc=searcher.doc(doc[i].doc);

System.out.println(dosc.get("name"));

}

最后我们来看下使用SearcherAfter进行分页的方式,代码如下:

try{

directory=FSDirectory.open(new File(indexReadPath));//打开索引文件夹

IndexReader reader=DirectoryReader.open(directory);//读取目录

IndexSearcher search=new IndexSearcher(reader);//初始化查询组件

int pageStart=0;

ScoreDoc lastBottom=null;//相当于pageSize

while(pageStart<10){//这个只有是paged.scoreDocs.length的倍数加一才有可能翻页操作

TopDocs paged=null;

paged=search.searchAfter(lastBottom, new MatchAllDocsQuery(),null,30);//查询首次的30条

if(paged.scoreDocs.length==0){

break;//如果下一页的命中数为0的情况下，循环自动结束

}

page(search,paged);//分页操作，此步是传到方法里对数据做处理的

pageStart+=paged.scoreDocs.length;//下一次分页总在上一次分页的基础上

lastBottom=paged.scoreDocs[paged.scoreDocs.length-1];//上一次的总量-1，成为下一次的lastBottom

}

reader.close();//关闭资源

directory.close();//关闭连接

}catch(Exception e){

e.printStackTrace();

}

至此，我们已经了解了lucene中的分页技术，至于，我们在项目中该如何使用，都要根据我们的实际情况处理，因为分页技术常常会跟其他的，排序，过滤，评分等一些技术结合使用。

lucene4.7 分页的更多相关文章

Lucene全文检索技术
Lucene全文检索技术今日大纲 ● 搜索的概念.搜索引擎原理.倒排索引 ● 全文索引的概念 ● 使用Lucene对索引进行CRUD操作 ● Lucene常用API详解 ● ...
Lucene4.X 高级应用
Lucene 简介以及使用 Lucene, 一个基于 Java 的开源的全文搜索工具包,可以方便的嵌入到各种应用系统中,实现针对应用的全文索引以及检索功能.目前是 Apache jakarta 项目 ...
用Lucene4.5对中文文本建立索引
这里需要完成一个能对txt文本建立索引,并能完成检索查询.完成这个功能,使用的是Lucene4.5,同时使用其自带的中文分析器. 准备工作是在一个文件夹里面建一些txt文件,这是我的文件结构: 首先要 ...
lucene4.10.2实例（增删改查）
最新jar和src免费下载:http://download.csdn.net/detail/u011518709/8248403 lucene 包的组成结构:对于外部应用来说索引模块(index)和检 ...
记一次SQLServer的分页优化兼谈谈使用Row_Number()分页存在的问题
最近有项目反应,在服务器CPU使用较高的时候,我们的事件查询页面非常的慢,查询几条记录竟然要4分钟甚至更长,而且在翻第二页的时候也是要这么多的时间,这肯定是不能接受的,也是让现场用SQLServerP ...
js实现前端分页页码管理
用JS实现前端分页页码管理,可以很美观的区分页码显示(这也是参考大多数网站的分页页码展示),能够有很好的用户体验,这也是有业务需要就写了一下,还是新手,经验不足,欢迎指出批评! 首先先看效果图: 这是 ...
JdbcTemplate+PageImpl实现多表分页查询
一.基础实体 @MappedSuperclass public abstract class AbsIdEntity implements Serializable { private static ...
MVC如何使用开源分页插件shenniu.pager.js
最近比较忙,前期忙公司手机端接口项目,各种开发+调试+发布现在几乎上线无问题了:虽然公司项目忙不过在期间抽空做了两件个人觉得有意义的事情,一者使用aspnetcore开发了个人线上项目(要说线上其实只 ...
NET Core-TagHelper实现分页标签
这里将要和大家分享的是学习总结使用TagHelper实现分页标签,之前分享过一篇使用HtmlHelper扩展了一个分页写法地址可以点击这里http://www.cnblogs.com/wangrudo ...

随机推荐

核心梳理——消息处理的骨架流程——ESFramework 4.0 进阶（02）
在ESFramework 4.0 概述一文中,我们提到ESFramework.dll作为通信框架的核心,定义了消息处理的骨架流程,本文我们来详细剖析这个流程以及该骨架中所涉及的各个组件.ESFrame ...
NOIP2012-普及组复赛-第二题-寻宝
题目描述 Description 传说很遥远的藏宝楼顶层藏着诱人的宝藏.小明历尽千辛万苦终于找到传说中的这个藏宝楼,藏宝楼的门口竖着一个木板,上面写有几个大字:寻宝说明书.说明书的内容如下:藏宝楼共有 ...
NOIP2002-普及组复赛-第三题-选数
题目描述 Description 已知 n 个整数 x1,x2,…,xn,以及一个整数 k(k<n).从 n 个整数中任选 k 个整数相加,可分别得到一系列的和.例如当 n=4,k＝3,4 个整 ...
webservice整合spring cxf
下载cxf包,把他里面的包都添加进lib文件夹中. 创建一个接口.添加@WebService注解 @WebService public interface HelloWorld { String sa ...
log4j2日志
log4j2.xmllog4j-api-2.5.jarlog4j-core-2.5.jar <?xml version="1.0" encoding="UTF-8& ...
4. JavaScript 控制语句
1. If...Else 语句 1.1 条件语句if /* 格式: 1. if ... 2. if ... else ... 3. if ... else if .... else 4. switch ...
xp添加右键"打开文件所在位置"
以下代码保存为czmb.vbs文件并放在C:\windwos目录下: Set OS = GetObject("winmgmts:\\.\root\cimv2")Set CF = O ...
程序开发：MVC设计模式与应用
MVC全名是Model View Controller,是模型(model)-视图(view)-控制器(controller)的缩写,一种软件设计典范,用一种业务逻辑.数据.界面显示分离的方法组织代 ...
Apriori算法-数组-C语言
原文地址:http://blog.csdn.net/liema2000/article/details/6118423 #include<stdio.h>typedef struct { ...
js循环POST提交添加辅助单位
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/ ...

lucene4.7 分页

lucene4.7 分页的更多相关文章

随机推荐

热门专题