前言

我们在实际工作中，有很多分页的需求，商品分页、订单分页等，在MySQL中我们可以使用limit，那么在Elasticsearch中我们可以使用什么呢？

ES 分页搜索一般有三种方案，from + size、search after、scroll api，这三种方案分别有自己的优缺点，下面将进行分别介绍。

使用的数据是kibana中的kibana_sample_data_flights。

from + size

这是ES分页中最常用的一种方式，与MySQL类似，from指定起始位置，size指定返回的文档数。

GET kibana_sample_data_flights/_search

{

  "from": 10,

  "size": 2,

  "query": {

    "match": {

      "DestWeather": "Sunny"

    }

  },

  "sort": [

    {

      "timestamp": {

        "order": "asc"

      }

    }

  ]

}

这个例子中查询航班中，目的地的天气是晴朗的，并且按时间进行排序。

使用简单，且默认的深度分页限制是1万，from + size 大于 10000会报错，可以通过index.max_result_window参数进行修改。

{

  "error": {

    "root_cause": [

      {

        "type": "query_phase_execution_exception",

        "reason": "Result window is too large, from + size must be less than or equal to: [10000] but was [10001]. See the scroll api for a more efficient way to request large data sets. This limit can be set by changing the [index.max_result_window] index level setting."

      }

    ],

    "type": "search_phase_execution_exception",

    "reason": "all shards failed",

    "phase": "query",

    "grouped": true,

    "failed_shards": [

      {

        "shard": 0,

        "index": "kibana_sample_data_flights",

        "node": "YRQNOSQqS-GgSo1TSzlC8A",

        "reason": {

          "type": "query_phase_execution_exception",

          "reason": "Result window is too large, from + size must be less than or equal to: [10000] but was [10001]. See the scroll api for a more efficient way to request large data sets. This limit can be set by changing the [index.max_result_window] index level setting."

        }

      }

    ]

  },

  "status": 500

}

这种分页方式，在分布式的环境下的深度分页是有性能问题的，一般不建议用这种方式做深度分页，可以用下面将要介绍的两种方式。

理解为什么深度分页是有问题的，我们可以假设在一个有 5 个主分片的索引中搜索。当我们请求结果的第一页（结果从 1 到 10 ），每一个分片产生前 10 的结果，并且返回给协调节点，协调节点对 50 个结果排序得到全部结果的前 10 个。

现在假设我们请求第 1000 页，结果从 10001 到 10010 。所有都以相同的方式工作除了每个分片不得不产生前10010个结果以外。然后协调节点对全部 50050 个结果排序最后丢弃掉这些结果中的 50040 个结果。

可以看到，在分布式系统中，对结果排序的成本随分页的深度成指数上升。

search after

search after 利用实时有游标来帮我们解决实时滚动的问题。第一次搜索时需要指定 sort，并且保证值是唯一的，可以通过加入 _id 保证唯一性。

GET kibana_sample_data_flights/_search

{

  "size": 2,

  "query": {

    "match": {

      "DestWeather": "Sunny"

    }

  },

  "sort": [

    {

      "timestamp": {

        "order": "asc"

      },

      "_id": {

        "order": "desc"

      }

    }

  ]

}

在返回的结果中，最后一个文档有类似下面的数据，由于我们排序用的是两个字段，返回的是两个值。

"sort" : [

  1614561419000,

  "6FxZJXgBE6QbUWetnarH"

]

第二次搜索，带上这个sort的信息即可，如下

GET kibana_sample_data_flights/_search

{

  "size": 2,

  "query": {

    "match": {

      "DestWeather": "Sunny"

    }

  },

  "sort": [

    {

      "timestamp": {

        "order": "asc"

      },

      "_id": {

        "order": "desc"

      }

    }

  ],

  "search_after": [

    1614561419000,

    "6FxZJXgBE6QbUWetnarH"

  ]

}

scroll api

创建一个快照，有新的数据写入以后，无法被查到。每次查询后，输入上一次的 scroll_id。目前官方已经不推荐使用这个API了，使用search_after即可。

GET kibana_sample_data_flights/_search?scroll=1m

{

  "size": 2,

  "query": {

    "match": {

      "DestWeather": "Sunny"

    }

  },

  "sort": [

    {

      "timestamp": {

        "order": "asc"

      },

      "_id": {

        "order": "desc"

      }

    }

  ]

}

在返回的数据中，有一个_scroll_id字段，下次搜索的时候带上这个数据，并且使用下面的查询语句。

POST _search/scroll

{

  "scroll" : "1m",

  "scroll_id" : "DXF1ZXJ5QW5kRmV0Y2gBAAAAAAAAA6UWWVJRTk9TUXFTLUdnU28xVFN6bEM4QQ=="

}

上面的scroll指定搜索上下文保留的时间，1m代表1分钟，还有其他时间可以选择，有d、h、m、s等，分别代表天、时、分钟、秒。

搜索上下文有过期自动删除，但如果自己知道什么时候该删，可以自己手动删除，减少资源占用。

DELETE /_search/scroll

{

  "scroll_id" : "DXF1ZXJ5QW5kRmV0Y2gBAAAAAAAAA6UWWVJRTk9TUXFTLUdnU28xVFN6bEM4QQ=="

}

总结

from + size 的优点是简单，缺点是在深度分页的场景下系统开销比较大。

search after 可以实时高效的进行分页查询，但是它只能做下一页这样的查询场景，不能随机的指定页数查询。

scroll api 方案也很高效，但是它基于快照，不能用在实时性高的业务场景，且官方已不建议使用。

参考资料

Elasticsearch 分页查询的更多相关文章

elasticsearch 分页查询实现方案——Top K+归并排序
elasticsearch 分页查询实现方案 1. from+size 实现分页 from表示从第几行开始,size表示查询多少条文档.from默认为0,size默认为10,注意:size的大小不能超 ...
Elasticsearch——分页查询From&Size VS scroll
Elasticsearch中数据都存储在分片中,当执行搜索时每个分片独立搜索后,数据再经过整合返回.那么,如果要实现分页查询该怎么办呢? 更多内容参考Elasticsearch资料汇总按照一般的查询 ...
ElasticSearch—分页查询
ElasticSearch查询—分页查询详解 Elasticsearch中数据都存储在分片中,当执行搜索时每个分片独立搜索后,数据再经过整合返回.那么,如何实现分页查询呢? 按照一般的查询流程来说,如 ...
elasticsearch 分页查询实现方案
1. from+size 实现分页 from表示从第几行开始,size表示查询多少条文档.from默认为0,size默认为10, 注意:size的大小不能超过index.max_result_wind ...
ElasticSearch——分页查询
前言 ElasticSearch实现分页查询,有3种方式,他们在数据查询中各自占据着不同的优势,因此在搜索引擎的数据分页过程中,如何更好地利用各自的优势来进行数据查询是一个非常重要的过程. 传统分页( ...
Elasticsearch分页查询
global index global CLIENT index = "guajibao-ipused-2019.10.13" CLIENT = Elasticsearch(hos ...
Elasticsearch教程（九） elasticsearch 查询数据 | 分页查询
Elasticsearch 的查询很灵活,并且有Filter,有分组功能,还有ScriptFilter等等,所以很强大.下面上代码: 一个简单的查询,返回一个List<对象> .. ...
elasticsearch查询之大数据集分页查询
一. 要解决的问题 search命中的记录特别多,使用from+size分页,直接触发了elasticsearch的max_result_window的最大值: { "error" ...
Elasticsearch from/size-浅分页查询-深分页 scroll-深分页search_after深度查询区别使用及应用场景
Elasticsearch调研深度查询 1.from/size 浅分页查询一般的分页需求我们可以使用from和size的方式实现,但是这种的分页方式在深分页的场景下应该是避免使用的.深分页的页次增加 ...

随机推荐

Fetch & Headers & CSRF
Fetch & Headers & CSRF https://developer.mozilla.org/en-US/docs/Web/API/Fetch_API/Using_Fetc ...
Flutter: The getter 'futureDynamicType' was called on null.
> flutter packages pub upgrade
Masterboxan INC ：个股出现疯涨，投资者需警惕股市泡沫
随着标普500指数自去年三月以来的暴涨,引发了很多亏损企业股价飙升,同时许多场外投资者盲目跟风,加剧了个股的疯涨.对于此现象,美国万事达资产管理有限公司不得不多次发文提醒投资者:个股出现疯涨,投资者需 ...
CNN专访灵石CTO：Baccarat流动性挖矿能否持续？
近日,CNN记者Robert独家专访Baccarat的项目团队CTO STEPHEN LITAN,跟他特别聊了聊DeFi的近况. 以下是专访全文: Robert:推出Baccarat的契机是什么? S ...
【Android初级】如何实现一个有动画效果的自定义下拉菜单
我们在购物APP里面设置收货地址时,都会有让我们选择省份及城市的下拉菜单项.今天我将使用Android原生的 Spinner 控件来实现一个自定义的下拉菜单功能,并配上一个透明渐变动画效果. 要实现的 ...
(十) 数据库查询处理之排序(sorting)
1. 为什么我们需要对数据排序可以支持对于重复元素的清除(支持DISTINCT) 可以支持GROUP BY 操作对于关系运算中的一些运算能够得到高效的实现 2. 引入外部排序算法对于不能全部放在 ...
lombok插件@Slf4j注解不生效问题解决办法
最近在尝试使用日志工具Sfl4j,当时使用log时报错,找了好久才解决这个问题. 1.首先需要下载Lombok插件 File->settings->Plugins 搜索Lombok,点击安 ...
分布式实时处理系统——C++高性能编程
[前言]基于通信基础,介绍Hurricane实时处理系统的工程实现,主要使用C++语言. 一.IPC.socket.异步I/O epoll 二.C++11 1.linux内存管理中使用RALL原则,C ...
SpringBoot(七):SpringBoot中如何使用过滤器(Filter)？
方式一: 通过注解方式实现: 1.编写一个Servlet3的注解过滤器(和上一章Servlet相似) 贴代码: package com.example.springbootweb.filter; im ...
肝了很久，冰河整理出这份4万字的SpringCloud与SpringCloudAlibaba学习笔记！！
写在前面不少小伙伴让我整理下有关SpringCloud和SpringCloudAlibaba的知识点,经过3天的收集和整理,冰河整理出这份4万字的SpringCloud与SpringCloudAli ...

Elasticsearch 分页查询

前言