在es中用scroll查询与completableFuture

一般而言，es返回数据的上限是10000条，如果超过这个数量，就必须使用scroll查询。

所谓scroll查询就类似DBMS中的游标，或者快照吧，利用查询条件，在第一次查询时，在所有的结果上形成了一个快照，然后再分批分次的读取出来。

要完成一个scroll查询分两个阶段：

阶段一：带查询参数

 POST /twitter/_search?scroll=1m

 {

     "size": ,

     "query": {

         "match" : {

             "title" : "elasticsearch"

         }

     }

 }

这个查询条件比较简单，只是示意。

关键是有两点：1.post路径中的scroll关键字，指明是一个scroll查询；2，scroll=1m意味着查询结果数据在es的服务器有效期是一分钟。

在查询结果的返回值中会带有一个scroll id的参数，这个参数在第二次查询的时候需要。

阶段二：不带参数查询

POST  /_search/scroll

{

    "scroll" : "1m",

    "scroll_id" : "DXF1ZXJ5QW5kRmV0Y2gBAAAAAAAAAD4WYm9laVYtZndUQlNsdDcwakFMNjU1QQ=="

}

这个查询请求中，会带上第一次请求得到的scroll_id这个字段。

然后循环往复，第三次查询需要带上第二次查询返回的scroll_id，以此类推，就这个例子而言，当判断返回的数据条数小于100条的时候，就可以结束请求了。

使用scroll查询的两个优势是：

1.无论查询的数据量是多大，都能够查询成功。

2.准确反映了第一次查询当时的查询结果，第一次查询之后的查询请求不会包含新的数据。

但也有一个缺点：

1.因为查询的递进的，第二次依赖于第一次，第三次依赖于第二次，所以如果数据量很多，查询的耗时就比较长。

如何解决耗时长这个问题了？就不能使用scroll来查询了，使用常规的查询，但是启用多线程去查。

GET /_search

{

    "query" : {

        "term" : { "user" : "kimchy" }

    }

}

加入在常规的查询中有timestamp这样的自动，我们可以预先对timestamp进行划分，比如分出10份，当然前提是我们假设数据在时间上是均匀的，然后每个时间切分启用一个线程去查询。在java中有completableFuture能够比较好的支持这种查询场景。

CompletableFuture<JSONArray>[] futures = (CompletableFuture<JSONArray>[]) new CompletableFuture[count];

                for (int i = ; i < count; i++) {

                    CompletableFuture<JSONArray> future = CompletableFuture.

                            supplyAsync(new JSONAarrySupplier(this.queryString,timestamp[i])

                            .exceptionally(ex -> {

                                logger.error(ex.getMessage());

                                return null;});

                    futures[i] = future;

                }

                CompletableFuture<List<JSONArray>> allFuture = myAllOf(futures);

                result = allFuture.get();

如上述，在一开始建立了一个future数组，然后根据时间切片，构建查询请求，并放入completableFuture中。

在最后调用get方法，拿到所有线程执行完的结果。

这里有一个点要注意，就是completableFuture.allOf方法本身返回的是void，如果我们的future是有返回值的话，就不能直接调用java自身提供的，需要改下一下，如上其实调用了下面的方法：

 public static CompletableFuture<List<JSONArray>> myAllOf(CompletableFuture<?>... futures) {

        return CompletableFuture.allOf(futures)

                .thenApply(x -> Arrays.stream(futures)

                        .map(f -> (JSONArray) f.join())

                        .collect(toList())

                ).exceptionally(ex -> {

                    logger.error(ex.getMessage());

                    return null;});

    }

这个方法中实现了返回值的转换。

这种多线程的查询，相对于scroll去查询，在网络不是瓶颈的前提下，性能还是有很大提升。

综上所述：

1.如果对时间不敏感，还是推荐使用scroll查询，毕竟反映了查询时间点的实际情况。

2.如果对时间敏感，则需要合理挑选查询分片条件，形成合理的多线程查询。

参考https://www.elastic.co/guide/en/elasticsearch/reference/current/search-request-scroll.html

在es中用scroll查询与completableFuture的更多相关文章

es实战之查询大量数据
背景项目中已提供海量日志数据的多维实时查询,客户提出新需求:将数据导出. 将数据导出分两步: 查询大量数据将数据生成文件并下载本文主要探讨第一步,在es中查询大量数据或者说查询大数据集. es支 ...
ES系列十二、ES的scroll Api及分页实例
1.官方api 1.Scroll概念 Version:6.1 英文原文地址:Scroll 当一个搜索请求返回单页结果时,可以使用 scroll API 检索体积大量(甚至全部)结果,这和在传统数据库中 ...
【Elasticsearch】ES中时间查询报错：Caused by: ElasticsearchParseException[failed to parse date field [Sun Dec 31 16:00:00 UTC 2017] with format [yyyy-MM-dd HH:mm:ss||yyyy-MM-dd||epoch_millis]];
ES中时间查询报错:Caused by: ElasticsearchParseException[failed to parse date field [Sun Dec 31 16:00:00 UTC ...
SQL中的LIKE中用参数化查询
今天终于学会怎么在like中用参数化查询啦..哈哈..再也不用担心sql注入了...
order by中用子查询排序
今天有个需求是对一个列表排序,但是排序字段是在另一个表中,不想用关联查询,就想能否直接在order by中用子查询,后来找到一个还挺好使.记录如下. 排序语句如下: select * from mai ...
ES 调优查询亿级数据毫秒级返回！怎么做到的？--文件系统缓存
一道面试题的引入: 如果面试的时候碰到这样一个面试题:ElasticSearch(以下简称ES) 在数据量很大的情况下(数十亿级别)如何提高查询效率? 这个问题说白了,就是看你有没有实际用过 ES,因 ...
ES 07 - Elasticsearch查询文档的六种方法
目录 1 Query String Search(查询串检索) 2 Query DSL(ES特定语法检索) 3 Query Filter(过滤检索) 4 Full Text Search(全文检索) ...
Elasticsearch利用scroll查询获取所有数据
Elasticsearch有两种分页方式,一种是通过from和size条件来实现,但是该方法开销比较大,另一种是利用scroll来实现,通过scroll来实现分页获取所有的数据,下面是利用python ...
ES开启慢查询日志
默认情况,慢日志是不开启的.要开启它,需要定义具体动作(query,fetch 还是 index),你期望的事件记录等级( WARN.INFO.DEBUG.TRACE 等),以及时间阈值. es有几种 ...

随机推荐

Lucene 工作原理
Lucene 简介 Lucene 是一个基于 Java 的全文信息检索工具包,它不是一个完整的搜索应用程序,而是为你的应用程序提供索引和搜索功能.Lucene 目前是 Apache Jakarta 家 ...
2018 Wannafly summer camp Day3--Shopping
Shopping 描述题目描述: 你要买n件物品,其中有一些是凳子. 商场正在举行促销活动,如果购物车中有至少一个凳子,那么你可以半价购买这个购物车中最贵的一个物品. 你有m辆购物车,请最小化你的花 ...
POJ2823 滑动窗口
滑动最小(最大)值,模版题. 题意:给一个数列,给一个窗口大小k,顺序求每个窗口中最大值和最小值. 和挑战中的例题一模一样,就多了一个求最大,改个大于小于符号就行. 算法是利用双端队列: 以求最小值为 ...
poj 2763 Housewife Wind : 树链剖分维护边 O(nlogn)建树 O((logn)²)修改与查询
/** problem: http://poj.org/problem?id=2763 **/ #include<stdio.h> #include<stdlib.h> #in ...
Git----将本地代码推送到远程仓库
1.初始化本地 git init 2.添加文件 -A等于 -. 和-a的集合 git add -A 3.提交 git commit -m 'add' 4.关联到远程库 git remote add o ...
Phpstudy2018 集成环境配置虚拟域名访问到Index Of 下
(1) Phpstudy是一款php集成开发环境可随意切换Php的版本以及服务器. Phpstudy的网站根目录默认为WWW目录,那么如果我们想通过虚拟域名访问到Index Of目录来便于查看 ...
Flask初学者：视图函数和类视图
当一个url请求进入后台时,一般有两种方式来进行处理:视图函数和类视图.视图函数直接使用一个函数来进行处理并返回数据给浏览器,类视图则是使用类来进行处理并返回的,所以当需要进行的处理比较简单,则可以考 ...
Python学习手册之控制结构（二）
在上一篇文章中,我们介绍了Python的一些控制结构,现在我们继续介绍剩下的 Python 控制结构.查看上一篇文章请点击:https://www.cnblogs.com/dustman/p/9972 ...
HASH算法小结
一.简述 HASH算法的本质是特征提取——将某种不太好表示的特征,通过某种压缩的方式映射成一个值.这样,就可以优雅解决一部分难以解决的特征统计问题. 同时考虑到hash算法的本质是个概率算法,因此并不 ...
IDEA Java Web(Spring)项目从创建到打包(war)
创建Maven管理的Java Web应用创建新项目,"create new project",左侧类型选择"maven",右侧上方选择自己的SDK,点击&qu ...

在es中用scroll查询与completableFuture

在es中用scroll查询与completableFuture的更多相关文章

随机推荐

热门专题