8.解决elasticsearch深度分页问题

前面说到，分页可以使用from和size参数，类似于mysql的分页offset和limit。但是如果数据量比较大时，elasticsearch会对分页做出限制，因为此时会比较消耗性能。

为什么要限制

分页的时候，elasticsearch会根据查询条件到每个分片取出数据来，然后再由coordinate节点来处理数据每个分片获取来的数据。整个行为远比mysql根据索引来查询数据耗时的多。所以elasticsearch就限制了大量数据的分页行为

把限制放大一些

es中有个设置index.max_result_window,默认是10000条数据，如果分页的数据超过第1万条，就拒绝返回结果了。如果你觉得自己的集群还算可以，可以适当的放大这个参数，比如100万。

我就是想一下子查第200万条的数据

目前没有解决方案，建议在业务上控制。示例可见百度、google搜索的做法。

我需要查询大批量的数据

elasticsearch满足你无限的查询下一页的操作，也就是一页一页的翻页行为。

search after

满足实时获取下一页的文档信息

search_after 分页的方式是根据上一页的最后一条数据来确定下一页的位置，同时在分页请求的过程中，如果有索引数据的增删改查，这些变更也会实时的反映到游标上。

为了找到每一页最后一条数据，每个文档必须有一个全局唯一值，官方推荐使用 _uid 作为全局唯一值，其实使用业务层的 id 也可以

GET test_dev/_search

{

  "query": {

    "bool": {

      "filter": [

        {

          "term": {

            "age": 28

          }

        }

      ]

    }

  },

  "size": 20,

  "from": 0,

  "sort": [

    {

      "timestamp": {

        "order": "desc"

      },

      "_id": {

        "order": "desc"

      }

    }

  ]

}

使用sort返回的值搜索下一页

GET test_dev/_search

{

  "query": {

    "bool": {

      "filter": [

        {

          "term": {

            "age": 28

          }

        }

      ]

    }

  },

  "size": 10,

  "from": 0,

  "search_after": [

    1541495312521,

    "d0xH6GYBBtbwbQSP0j1A"

  ],

  "sort": [

    {

      "timestamp": {

        "order": "desc"

      },

      "_id": {

        "order": "desc"

      }

    }

  ]

}

scroll

生成一个快照，适合批量导出数据

使用scroll，每次只能获取一页的内容，然后会返回一个scroll_id。根据返回的这个scroll_id可以不断地获取下一页的内容

GET test_dev/_search?scroll=5m

{

  "query": {

    "bool": {

      "filter": [

        {

          "term": {

            "age": 28

          }

        }

      ]

    }

  },

  "size": 10,

  "from": 0,

  "sort": [

    {

      "timestamp": {

        "order": "desc"

      },

      "_id": {

        "order": "desc"

      }

    }

  ]

}

scroll=5m表示设置scroll_id保留5分钟可用。
使用scroll必须要将from设置为0。
size决定后面每次调用_search搜索返回的数量

GET _search/scroll

{

  "scroll_id": "DnF1ZXJ5VGhlbkZldGNoBQAAAAAAAJZ9Fnk1d......",

  "scroll": "5m"

}

参考 https://blog.csdn.net/andybegin/article/details/83864171