Elasticsearch中的分页查询限制和近似去重统计
Elasticsearch
前言
最近工作中用到了Elasticsearch,但是遇到几个挺坑的点,还是记录下。
深度分页的问题
es中的普通的查询from+size,存在查询数量的10000条限制。
index.max_result_window
The maximum value of from + size for searches to this index. Defaults to 10000. Search requests take heap memory and time proportional to from + size and this limits that memory. See Scroll or Search After for a more efficient alternative to raising this.
es为了减少内存的使用,限制了内存中索引数据的加载,默认10000。也就是
from 10000 size 1
这样的查询就是不行的,将会报错
Result window is too large, from + size must be less than or equal to:[10000] but was [10500]. See the scroll api for a more efficient way to requestlarge data sets. This limit can be set by changing the[index.max_result_window] index level parameter
如何解决
修改默认值
通过设置index 的设置参数max_result_window的值,来改变查询条数的限制。
curl -XPUT http://127.0.0.1:9200/book/_settings -d '{ "index" : { "max_result_window" : 200000000}}'
使用search_after方法
例子可参考官方https://www.elastic.co/guide/en/elasticsearch/reference/6.8/search-request-search-after.html
如何使用呢,就是设置一个全局唯一的字段,然后在查看的时候加上这个字段的排序。这样第二次查询,search_after第一次查询最后一条的对应的唯一值的值。有点绕哈,看例子
GET twitter/_search
{
    "size": 10,
    "query": {
        "match" : {
            "title" : "elasticsearch"
        }
    },
    "sort": [
        {"accessId": "asc"}
    ]
}
比如我的accessId是全局唯一,并且自增的,第二次查询search_after最新的accessId就好了
GET twitter/_search
{
    "size": 10,
    "query": {
        "match" : {
            "title" : "elasticsearch"
        }
    },
    "search_after": [10],
    "sort": [
        {"accessId": "asc"}
    ]
}
后面的查询依次类推
scroll 滚动搜索
scroll 查询可以用来对Elasticsearch有效地执行大批量的文档查询,而又不用付出深度分页那种代价。
游标查询允许我们 先做查询初始化,然后再批量地拉取结果。 这有点儿像传统数据库中的cursor 。
游标查询会取某个时间点的快照数据。查询初始化之后索引上的任何变化会被它忽略。它通过保存旧的数据文件来实现这个特性,结果就像保留初始化时的索引 视图 一样。
深度分页的代价根源是结果集全局排序,如果去掉全局排序的特性的话查询结果的成本就会很低。游标查询用字段_doc来排序。 这个指令让 Elasticsearch仅仅从还有结果的分片返回下一批结果。
启用游标查询可以通过在查询的时候设置参数 scroll的值为我们期望的游标查询的过期时间。游标查询的过期时间会在每次做查询的时候刷新,所以这个时间只需要足够处理当前批的结果就可以了,而不是处理查询结果的所有文档的所需时间。 这个过期时间的参数很重要,因为保持这个游标查询窗口需要消耗资源,所以我们期望如果不再需要维护这种资源就该早点儿释放掉。设置这个超时能够让Elasticsearch在稍后空闲的时候自动释放这部分资源。
GET /old_index/_search?scroll=1m  // 设置查询窗口一分钟
{
    "query": { "match_all": {}},
    "sort" : ["_doc"], // 使用_doc字段排序
    "size":  1000
}
这个查询的返回结果包括一个字段_scroll_id,它是一个base64编码的长字符串 。现在我们能传递字段_scroll_id到_search/scroll查询接口获取下一批结果:
GET /_search/scroll
{
    "scroll": "1m", // 时间
    "scroll_id" : "cXVlcnlUaGVuRmV0Y2g7NTsxMDk5NDpkUmpiR2FjOFNhNnlCM1ZDMWpWYnRROzEwOTk1OmRSamJHYWM4U2E2eUIzVkMxalZidFE7MTA5OTM6ZFJqYkdhYzhTYTZ5QjNWQzFqVmJ0UTsxMTE5MDpBVUtwN2lxc1FLZV8yRGVjWlI2QUVBOzEwOTk2OmRSamJHYWM4U2E2eUIzVkMxalZidFE7MDs="
} // scroll_id是上次返回的
之后的查询依次类推
这个游标查询返回的下一批结果。 尽管我们指定字段size的值为1000,我们有可能取到超过这个值数量的文档。 当查询的时候, 字段 size 作用于单个分片,所以每个批次实际返回的文档数量最大为size * number_of_primary_shards。
es中的近似聚合
对于es来讲,其中的去重计数。是个近似的值,不像mysql中的是精确值,存在5%的误差,不过可以通过设置precision_threshold来解决少量数据的精准度
GET /cars/transactions/_search
{
    "size" : 0,
    "aggs" : {
        "distinct_colors" : {
            "cardinality" : {
              "field" : "color",
              "precision_threshold" : 100  // precision_threshold 接受 0–40,000 之间的数字,更大的值还是会被当作 40,000 来处理。
            }
        }
    }
}
示例会确保当字段唯一值在 100 以内时会得到非常准确的结果。尽管算法是无法保证这点的,但如果基数在阈值以下,几乎总是100%正确的。高于阈值的基数会开始节省内存而牺牲准确度,同时也会对度量结果带入误差。
对于指定的阈值,HLL的数据结构会大概使用precision_threshold * 8字节的内存,所以就必须在牺牲内存和获得额外的准确度间做平衡。
在实际应用中,100的阈值可以在唯一值为百万的情况下仍然将误差维持5%以内。
总结
当我们选型es时候,要充分考虑到上面的几点。
Elasticsearch中的分页查询限制和近似去重统计的更多相关文章
- Elasticsearch中的Term查询和全文查询
		目录 前言 Term 查询 exists 查询 fuzzy 查询 ids 查询 prefix 查询 range 查询 regexp 查询 term 查询 terms 查询 terms_set 查询 t ... 
- mongo中的分页查询
		/** * @param $uid * @param $app_id * @param $start_time * @param $end_time * @param $start_page * @p ... 
- ssh框架中的分页查询
		ssh中的分页查询是比较常用的,接下来我用代码来介绍如何实现一个分页查询 首先建立一个Model用来储存查询分页的信息 package com.haiziwang.qrlogin.utils; imp ... 
- ElasticSearch中的简单查询
		前言 最近修改项目,又看了下ElasticSearch中的搜索,所以简单整理一下其中的查询语句等.都是比较基础的.PS,好久没写博客了..大概就是因为懒吧.闲言少叙书归正传. 查询示例 http:// ... 
- Elasticsearch from/size-浅分页查询-深分页 scroll-深分页search_after深度查询区别使用及应用场景
		Elasticsearch调研深度查询 1.from/size 浅分页查询 一般的分页需求我们可以使用from和size的方式实现,但是这种的分页方式在深分页的场景下应该是避免使用的.深分页的页次增加 ... 
- java使用插件pagehelper在mybatis中实现分页查询
		摘要: com.github.pagehelper.PageHelper是一款好用的开源免费的Mybatis第三方物理分页插件 PageHelper是国内牛人的一个开源项目,有兴趣的可以去看源码,都有 ... 
- 怎样在 Akka Persistence 中实现分页查询
		在 Akka Persistence 中,数据都缓存在服务内存(状态),后端存储的都是一些持久化的事件日志,没法使用类似 SQL 一样的 DSL 来进行分页查询.利用 Akka Streams 和 A ... 
- 关于在elasticSearch中使用聚合查询后只显示10个bucket的问题
		先看下面es查询语句 { "size": 0, "aggs" : { "all_articleId" : { "terms&quo ... 
- ElasticSearch—分页查询
		ElasticSearch查询—分页查询详解 Elasticsearch中数据都存储在分片中,当执行搜索时每个分片独立搜索后,数据再经过整合返回.那么,如何实现分页查询呢? 按照一般的查询流程来说,如 ... 
- 在Elasticsearch中查询Term Vectors词条向量信息
		这篇文章有点深度,可能需要一些Lucene或者全文检索的背景.由于我也很久没有看过Lucene了,有些地方理解的不对还请多多指正. 更多内容还请参考整理的ELK教程 关于Term Vectors 额, ... 
随机推荐
- Axure 母版红色怎么去除?
			视图 => 遮罩 => 母版 勾选去掉 
- PPT 常规设置
			高级设置 可以将撤销次数调大,最多 150次 默认拉到PPT中的图片是被压缩的,可以设置成不压缩(解压 PPT 可查看里面的图片大小) 字体嵌入 可将自动保存时间调短,默认保存目录我习惯先保存到桌面( ... 
- 动作捕捉系统验证OPT追踪井下无人机的性能
			井下无人机长时间在恶劣环境下执行勘测.救援任务,通讯系统可能会陷入两难的境地--传输高精度坐标伴随着大量耗能.为解决这项难题,中国矿业大学计算机科学和技术学院陈朋朋教授团队提出了一种基于超宽带(UWB ... 
- Java 剑指offer(16) 打印1到最大的n位数
			题目 输入数字n,按顺序打印出从1最大的n位十进制数.比如输入3,则打印出1.2.3一直到最大的3位数即999. 思路 陷阱: n过大时是大数问题,不能简单用int或者long数据输出,需要采用字符串 ... 
- C++ lambda 内 std::move 失效问题的思考
			最近在学习 C++ Move 时,有看到这样一个代码需求:在 lambda 中,将一个捕获参数 move 给另外一个变量. 看似一个很简单常规的操作,然而这个 move 动作却没有生效. 具体代码如下 ... 
- Mac 开发 | IDEA 设置 Mybatis 的XML SQL 语句提示
			1.IDEA 链接数据库 2.IDEA 设置数据库方言为链接的数据库方言 3.IDEA SQL 解析范围设置 4. 可以在mapper xml 中写select 测试了. 
- kafka集群五、__consumer_offsets副本数修改
			系列导航 一.kafka搭建-单机版 二.kafka搭建-集群搭建 三.kafka集群增加密码验证 四.kafka集群权限增加ACL 五.kafka集群__consumer_offsets副本数修改 ... 
- fetch与axios
- 核心技能之UI库选择
			移动端推荐: vant.cube-ui 有赞vant: https://youzan.github.io/vant/#/zh-CN/ 滴滴cube-ui: https://didi.github.io ... 
- 打 multi-fidelity RL 旗号,但是幼稚监督学习 + 迁移学习
			文章名称:Multi-fidelity reinforcement learning framework for shape optimization 链接:https://www.sciencedi ... 
