正确遍历ElasticSearch索引

1：ElasticSearch的查询过程

2：由ES查询模式引起的深度分页问题

3：如何正确遍历索引中的数据

ElasticSearch的查询过程

es的数据查询分两步：

第一步是的结果是获取满足查询条件的，分布于各个shard上的_doc_id及对应_score；

第二步是根据第一步获取的所有的_doc_id，去各个shard上获取数据明细，合并返回客户端。

在第一步的查询中，es执行了一个类似map-reduce的查询模式：在各个shard上执行同样的查询，获取同样大小的数据（from+size），然后将各个 shard查询结果的_doc_id，_score返回给接收查询请求的节点，最终进行一次汇总。注意这里传输数据的数量是from+size，而不仅仅是size大小。

由ES查询模式引起的深度分页问题

通过ES的查询过程我们已经可以看出问题，对大数据量的Index进行遍历操作，如果使用from size的方式，将存在极大的资源浪费（因为from过大），当然如果size过大则问题更为严重，服务器内存会被吃光。因此很多站点的查询，都不会允许查看过大的page，深度分页的问题在关系数据库中同样存在。

如何正确遍历索引中的数据

在ES中遍历索引的推荐方式是采用scroll操作，或者在不需要排序而仅仅需要遍历的情况下，可以采用scroll_scan进一步提升性能。

详细可见：Scroll的官方说明

简单描述一下Scroll的工作原理：

1：对需要遍历（或获取某个满足条件的子集）的索引，规划一个合理的size作为分页大小；

2：在POST的查询中，增加?scroll=1m(expire time)的query string；

3：在该次查询中，返回结果中除了查询结果以外，还有一个scroll_id（很长），这个scroll_id可以看做是第一次查询时目标索引的快照的游标；

4：之后直接在GET请求中将scroll_id作为query string传递，或在POST请求中加入scroll_id即可获取下一批数据，直到没有数据为止，如此实现对所有目标数据的遍历。

（注：在使用scroll遍历的过程中，不需要再指定各种查询条件比如索引名，size大小什么的，只需要指定scroll_id即可，还可以指定scroll:1m之类的过期时间，相同条件下有效期内的scroll操作，返回的scroll_id是不会变的，仅仅是scroll_id这个游标向前走，返回下一批数据而已）

scroll_id可以被显式删除，如果你需要重置对查询目标的遍历过程的话。

如果遍历过程不需要对数据进行排序，可以使用更为高效的scroll_scan方式进行，如下：

POST ip:port/my_index/my_type/_search?search_type=scan&scroll=1m&size=
{
    "query": { "match_all": {}}
}

这里需要注意的是，search_type指定为scan，即无需排序，而size=50是指每个shard上的size是50，最终返回数据是shard*size。

初次以外，scroll_scan与普通的scroll还有如下三点不同：

Scroll-Scan 结果没有排序，按 index 顺序返回，没有排序，可以提高取数据性能。
初始化时只返回 _scroll_id，没有具体的 hits 结果。
size 控制的是每个分片的返回的数据量而不是整个请求返回的数据量

关于scroll操作是否线程安全的问题，es的客户端（java&c#）均为线程安全，因此我认为通过客户端来进行的scroll请求也是线程安全的。如果有错误请指出。

2016-09-14补充：

利用scroll_id获取数据的同时，ES将返回当前查询的scroll_id，在其失效或被删除之前，这个scroll_id都不变，如果希望程序的可靠性更高，可以用每次返回的scroll_id更新查询POST所发送的scroll_id；同时，对通过scroll_id查询返回的结果集进行判空，以确定当前scroll_id是否已失效，从而需要重新获取scroll_id。

正确遍历ElasticSearch索引的更多相关文章

Elasticsearch索引(company)_Centos下CURL增删改
目录返回目录:http://www.cnblogs.com/hanyinglong/p/5464604.html 1.Elasticsearch索引说明 a. 通过上面几篇博客已经将Elastics ...
Elasticsearch索引原理
转载 http://blog.csdn.net/endlu/article/details/51720299 最近在参与一个基于Elasticsearch作为底层数据框架提供大数据量(亿级)的实时统计 ...
Elasticsearch入门教程(三)：Elasticsearch索引&映射
原文:Elasticsearch入门教程(三):Elasticsearch索引&映射版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明. 本文 ...
带你走进神一样的Elasticsearch索引机制
更多精彩内容请看我的个人博客前言相比于大多数人熟悉的MySQL数据库的索引,Elasticsearch的索引机制是完全不同于MySQL的B+Tree结构.索引会被压缩放入内存用于加速搜索过程,这一 ...
ES3：ElasticSearch 索引
ElasticSearch是文档型数据库,索引(Index)定义了文档的逻辑存储和字段类型,每个索引可以包含多个文档类型,文档类型是文档的集合,文档以索引定义的逻辑存储模型,比如,指定分片和副本的数量 ...
Elasticsearch索引和文档操作
列出所有索引现在来看看我们的索引 GET /_cat/indices?v 响应 health status index uuid pri rep docs.count docs.deleted st ...
ElasticSearch 索引剖析
ElasticSearch index 剖析在看ElasticSearch权威指南基础入门中关于:分片内部原理这一小节内容后,大致对ElasticSearch的索引.搜索底层实现有了一个初步的认识. ...
Elasticsearch 索引、更新、删除文档
一.Elasticsearch 索引(新建)一个文档的命令: curl XPUT ' http://localhost:9200/test_es_order_index/test_es_order_t ...
Elasticsearch 索引的全量/增量更新
Elasticsearch 索引的全量/增量更新当你的es 索引数据从mysql 全量导入之后,如何根据其他客户端改变索引数据源带来的变动来更新 es 索引数据呢. 首先用 Python 全量生成 ...

随机推荐

JavaScript单元测试框架JsUnit基本介绍和使用
JavaScript单元测试框架JsUnit基本介绍和使用 XUnit framework XUnit是一套标准化的独立于语言的概念和结构集合,用于编写和运行单元测试(Unit tests). 每一个 ...
Android Json处理框架
1.Android 中的Json解析工具fastjson .序列化.反序列化 2.Android Gson的使用总结 3.Android-JSONTool 一个简易的Json框架类,小到只有一个类有 ...
ios webview自适应实际内容高度4种方法
有的时候会碰见类似的苦逼需求, webview自适应实际内容高度下面有四种方法供使用方法1:获取webview中scrovllview的contentsize进行设置 1 2 3 4 5 6 ...
.NET系列文章——近一年文章分类整理，方便各位博友们查询学习
由于博主今后一段时间可能会很忙(准备出书:<.NET框架设计—模式.配置.工具>,外加换了新工作),所以博客会很少更新: 在最近一年左右时间里,博主各种.NET技术类型的文章都写过,根据博 ...
图概PHP生命周期
一图胜千言~ 这是之前根据网上大牛们的分析和跟着阅读了一点源码而做出来的总结.因为那时候困于对整个过程没有一个全面的认识,所以想自己做个图吧,那样看起来要更加直接了当,说不定还能会有一个更好的认识和更 ...
[解决]Mercurial HTTP Error 500: Access is denied on 00changelog.i
总之,用户对仓库目录要有写权限 00changelog, access is denied, hg, http error 500, mercurial, permissions, push Merc ...
Ubuntu搭建Note.Js 平台
1. 安装nodeJs和npm apt-get install nodejsapt-get install npm 2 .node有一个模块叫n,是专门用来管理node.js的版本的.首先安装n模块: ...
C++中的也能使用正则表达式
正则表达式Regex(regular expression)是一种强大的描述字符序列的工具.在许多语言中都存在着正则表达式,C++11中也将正则表达式纳入了新标准的一部分,不仅如此,它还支持了6种不同 ...
NopCommerce 增加 Customer Settings
预期: 仿照Customer 的 Phone number enabled 和 required 增加MemberType 相关步骤如下: 1.运行站点 Admin -> Settings -& ...
利用setns()将进程加入一个新的network namespace
1.首先使用docker创建一个容器,并获取该容器的network namespace monster@monster-Z:~$ docker run -itd --name test ubuntu ...

正确遍历ElasticSearch索引

正确遍历ElasticSearch索引的更多相关文章

随机推荐

热门专题