ElasticSearch如何一次查询出全部数据

Elasticsearch 查询结果默认只显示10条，可以通过设置from及size来达到分页的效果(详见附3），但是 from + size <= 10,000，因为index.max_result_window 默认值是10，000，而 from+ size 必须小于index.max_result_window 。因此只能用Scroll（一次取一点，分多次取）取出所有的结果

转载请注明出处：https://www.cnblogs.com/NaughtyCat/p/how-to-search-all-results-once-in-es.html

Scroll相当于传统数据库的游标，具体代码片段如下：

		SearchResponse scrollResp = client.prepareSearch(availableIndices)

				.setTypes(type)

				.setScroll(new TimeValue(60000))

				.setQuery(boolQueryBuilder)

				.setSize(SEARCH_HITS_SIZE).get(); //max of SEARCH_HITS_SIZE hits will be returned for each scroll

		//Scroll until no hits are returned

		do {

			for (SearchHit hit : scrollResp.getHits().getHits()) {

					tmpJsonList.add( (JSONObject) JSONValue.parse(hit.getSourceAsString()));

				}

			}

			jsonList.addAll(tmpJsonList);

			tmpJsonList.clear();

			scrollResp = client.prepareSearchScroll(scrollResp.getScrollId()).setScroll(new TimeValue(60000)).execute().actionGet();

		} while (scrollResp.getHits().getHits().length != 0);

setScroll()里传入的时间，表示一次处理setSize()中size大小的数据的超时时间，即处理一个分页最长不超过的时间，上面的代码表示TimeOut = 1分钟（详情可搜索Scroll context。另外，数据量比较大，TimeOut得设长一点，笔者20亿左右的数据，至少TimeOut得设置为3min；否则会抛出异常： ElasticSearch: SearchContextMissingException[No search context found for id）

）。scrollResp.getScrollId()每次会生成一个ScrollID，如下图：

用from + size循环读取的代码片段如下（作者【CoderBaby】）：

　　　　　　 int index = 0;

            {

                tmpJsonList.clear();

                srb.setFrom(Math.multiplyExact(index, SEARCH_HITS_SIZE));

                index++;

                MultiSearchResponse.Item[] items = sr.get().getResponses();

                for (MultiSearchResponse.Item item : items) {

                    SearchResponse response = item.getResponse();

                    SearchHit[] hits = response.getHits().getHits();

                    if (hits.length != 0) {

                        for (SearchHit hit : hits) {

                                tmpJsonList.add((JSONObject) JSONValue.parse(hit.getSourceAsString());

                            }

                        }

                    }

                jsonList.addAll(tmpJsonList);

                }

            } while (tmpJsonList.size() > 0);

其中：SEARCH_HITS_SIZE = 1000， srb是多条件组合查询，前置代码如下：

 queryBuilders.forEach(query -> {

        boolQueryBuilder.must(query);

            });

MultiSearchRequestBuilder sr = client.prepareMultiSearch();

            SearchRequestBuilder srb = client.prepareSearch().setTypes(type).setIndices(availableIndices).setQuery(boolQueryBuilder).setSize(SEARCH_HITS_SIZE);

            sr.add(srb);

查询条件的构造代码片段如下（用QueryBuilders根据需要选择term, range, match等）：

	StringUtil.isEmpty(l7p)) {

            queryBuilders.add(QueryBuilders.termQuery(Event.FIELD_L7P, l7p));

        }

        if (!StringUtil.isEmpty(startTime) && StringUtil.isEmpty(endTime)) {

            queryBuilders.add(QueryBuilders.rangeQuery(Event.FIELD_START_TIME).from(startTime));

        }

附：

1）using scroll in java https://www.elastic.co/guide/en/elasticsearch/client/java-api/current/java-search-scrolling.html

2）scroll https://www.elastic.co/guide/en/elasticsearch/reference/5.1/search-request-scroll.html

3) from and size https://www.elastic.co/guide/en/elasticsearch/reference/current/search-request-body.html#request-body-search-from-size

*****************************************************************************************************

精力有限，想法太多，专注做好一件事就行

我只是一个程序猿。5年内把代码写好，技术博客字字推敲，坚持零拷贝和原创
写博客的意义在于打磨文笔，训练逻辑条理性，加深对知识的系统性理解；如果恰好又对别人有点帮助，那真是一件令人开心的事

*****************************************************************************************************

ElasticSearch如何一次查询出全部数据—基于Scroll的更多相关文章

sql语句中查询出的数据添加一列，并且添加默认值
查询出数据,并且要添加一列表中都不存在的数据,且这一列的值都是相等的 select app_id,app_secret from wx_ticket group by app_id; 查询出的数据是 ...
匿名类型使用泛型T linq返回dynamic类型的匿名实体如何把匿名类型.GetType()返回的对象传进泛型里面 EF实体查询出的数据List<T>转DataTable出现【DataSet 不支持 System.Nullable<>】的问题
[100分]紧急求助:LinQ下使用IQueryable<T>如何将返回类型<T>使用匿名类型问题描述如下:我有一个方法如下:public IQueryable Dissen ...
jmeter将JDBC Request查询出的数据作为下一个接口的参数
现在有一个需求,从数据库tieba_info表查出rank小于某个值的username和count(*),然后把所有查出来的username和count(*)作为参数值,用于下一个接口. tieba_ ...
Java基于POI实现excel任意多级联动下拉列表——支持从数据库查询出多级数据后直接生成【附源码】
Excel相关知识点 (1)名称管理器--Name Manager [CoderBaby]首先需要创建多个名称(包含key及value),作为下拉列表的数据源,后续通过名称引用.可通过菜单:&quo ...
hibernate查询出的数据和数据库不一致
之前直接使用hibernate的时候就出现过已经进行物理存储后的数据,查询不出来的情况,既然是已经存储后的数据,说明事务已经提交,想必问题出在查询时,查询的缓存,没有查询数据库.时有时无就很奇怪. 现 ...
Navicat查询出的数据有时候不能更改？
Navicate查出数据只读,一种情况是查询没带出主键(唯一索引),无法更新数据
在ASP.NET MVC中利用Aspose.cells 将查询出的数据导出为excel，并在浏览器中下载。
正题前的唠叨本人是才出来工作不久的小白菜一颗,技术很一般,总是会有遇到一些很简单的问题却不知道怎么做,这些问题可能是之前解决过的.发现这个问题,想着提升一下自己的技术水平,将一些学的新的'好'东西记 ...
mysql查询出相同数据出现的次数，统计相同值的数量
1.可以使用count SELECT count(name='A' OR NULL) FROM table 2.用sum SELECT sum(if( = 'A', 1, 0)) FROM table ...
JMeter连接数据库(查询出的数据作为参数)
针对Mysql jdbc:mysql://ip:3306/数据库名?useUnicode=true&characterEncoding=utf8&allowMultiQueries=t ...

随机推荐

LFU的基本原理与实现
前言:之前有写过一篇关于LRU的文章链接https://www.cnblogs.com/wyq178/p/9976815.html LRU全称:Least Recently Used:最近最少使用策 ...
zookeeper+springboot+dubbo简单实现
第一步:在虚拟机中搭建zookeeper. 第二步:本地创建3个maven工程,分别为wxh-dubbo-api(对外暴露的接口),wxh-dubbo-provider(服务提供者,接口的具体实现), ...
Caused by: org.springframework.context.annotation.ConflictingBeanDefinitionException 异常
Caused by: org.springframework.context.annotation.ConflictingBeanDefinitionException 报此异常是应为有相同的bean ...
前端技术之：通过plop生成Controller的方法与步骤
# Controller的生成开发者可以通过plop命令生成各种类型的控制器类(Normal.Restful.View), 以下是示例生成步骤. 1. 执行以下命令: plop controller ...
Sublime text3配置C++环境
前言传说sublime是全球最好的编辑器,可是只是编辑器啊!!!如果要运行,对于我们这些蒟蒻来说,不得不去使用DEV_C++.我们总是幻想能让sublime变成一个轻量级IDE,那该多好啊!!! 那 ...
7.19 NOIP模拟6
这次考试又一次让mikufun认识到了常数的重要性 T1.那一天我们许下约定这题一看到D<=1e12,想都没想,矩阵快速幂!然后飞快的码了一个,复杂度n^3logD,让后我观察了一下这个转移矩 ...
CSPS模拟 47
考试时T1没玩明白,用一个WA90把100盖住了? T1 Emotional Flutter 题目非常蠢萌,只是注意当你把黑块前伸s距离后,应把脚的长度视为0,而不应为1. T2 Endless Fa ...
使用Typescript重构axios(十六)——请求和响应数据配置化
0. 系列文章 1.使用Typescript重构axios(一)--写在最前面 2.使用Typescript重构axios(二)--项目起手,跑通流程 3.使用Typescript重构axios(三) ...
手把手带你实战下Spring的七种事务传播行为
目录本文目录一.什么是事务传播行为? 二.事务的7种传播行为三.7种传播行为实战本文介绍Spring的七种事务传播行为并通过代码演示下. 本文目录一.什么是事务传播行为? 事务传播行为(pr ...
一条查询语句在MySQL中是如何执行的？
前言我们在学习一种技术的时候,首先要鸟瞰其全貌,千万不要一开始就陷入到细节中去,这样有助于我们站在高维度其理解问题 —— 丁奇. 学习MySQL也是一样,所以我们可以从一条查询语句的执行开始看起. ...

ElasticSearch如何一次查询出全部数据—基于Scroll

ElasticSearch如何一次查询出全部数据—基于Scroll的更多相关文章

随机推荐

热门专题