4.elasticsearch中聚合查询

elasticsearch聚合查询

什么是聚合，就是目的不是查询具体的文档，而是查询文档的相关性，此外还可以对聚合的文档在按照其他维度再聚合。

包含以下四种聚合

Bucket Aggregation 一些列满足特定条件的文档的集合
- terms 对某个字段统计每个不同的内容，以及出现文档的个数
- range 某个范围内文档的个数
Metric Aggregation 一些数学运算，可以对文档字段进行统计分析
- 输出一个值，min/max/sum/avg/cardinality
- 输出多个值，stats/percentiles/percentile_ranks
Pipeline Aggregation 对其他的聚合结果进行二次聚合（不是对文档进行聚合）
Matrix Aggregation 支持对多个字段的操作并提供一个结果矩阵

#按照目的地进行分桶统计 Bucket Aggregation

GET kibana_sample_data_flights/_search

{

    "size": 0,

    "aggs":{

        "flight_dest":{

            "terms":{

                "field":"DestCountry"

            }

        }

    }

}

#查看航班目的地的统计信息，增加平均，最高最低价格 Metric Aggregation

GET kibana_sample_data_flights/_search

{

    "size": 0,

    "aggs":{

        "flight_dest":{

            "terms":{

                "field":"DestCountry"

            },

            "aggs":{

                "avg_price":{

                    "avg":{

                        "field":"AvgTicketPrice"

                    }

                },

                "max_price":{

                    "max":{

                        "field":"AvgTicketPrice"

                    }

                },

                "min_price":{

                    "min":{

                        "field":"AvgTicketPrice"

                    }

                }

            }

        }

    }

}

#价格统计信息+天气信息 Metric Aggregation

GET kibana_sample_data_flights/_search

{

    "size": 0,

    "aggs":{

        "flight_dest":{

            "terms":{

                "field":"DestCountry"

            },

            "aggs":{

                "stats_price":{

                    "stats":{

                        "field":"AvgTicketPrice"

                    }

                },

                "wather":{

                  "terms": {

                    "field": "DestWeather",

                    "size": 5

                  }

                }

            }

        }

    }

}

# 平均工资最低的工作类型

GET employees/_search

{

  "size": 0,

  "aggs": {

    "jobs": {

      "terms": {

        "field": "job.keyword",

        "size": 10

      },

      "aggs": {

        "avg_salary": {

          "avg": {

            "field": "salary"

          }

        }

      }

    },

    "min_salary_by_job":{

      "min_bucket": {

        "buckets_path": "jobs>avg_salary"

      }

    }

  }

}

聚合的作用范围

默认聚合范围是全文，但是如果有query查询，那么聚合的范围就是query查询的结果

# Query

GET employees/_search

{

  "size": 0,

  "query": {

    "range": {

      "age": {

        "gte": 20

      }

    }

  },

  "aggs": {

    "jobs": {

      "terms": {

        "field":"job.keyword"

      }

    }

  }

}

如果有聚合中有filter过滤，那么其子聚合的作用范围是filter过滤的文档，但是和此聚合并列的聚合，不受filter影响

#Filter

GET employees/_search

{

  "size": 0,

  "aggs": {

    "older_person": {

      "filter":{

        "range":{

          "age":{

            "from":35

          }

        }

      },

      "aggs":{

         "jobs":{

           "terms": {

        "field":"job.keyword"

      }

      }

    }},

    "all_jobs": {

      "terms": {

        "field":"job.keyword"

      }

    }

  }

}

我们可以指定一些作用范围，关键字是 post_filter、global

#Post field. 一条语句，找出所有的job类型。还能找到聚合后符合条件的结果

GET employees/_search

{

  "aggs": {

    "jobs": {

      "terms": {

        "field": "job.keyword"

      }

    }

  },

  "post_filter": {

    "match": {

      "job.keyword": "Dev Manager"

    }

  }

}

#global global会无视query条件，对全部文档进行统计

GET employees/_search

{

  "size": 0,

  "query": {

    "range": {

      "age": {

        "gte": 40

      }

    }

  },

  "aggs": {

    "jobs": {

      "terms": {

        "field":"job.keyword"

      }

    },

    "all":{

      "global":{},

      "aggs":{

        "salary_avg":{

          "avg":{

            "field":"salary"

          }

        }

      }

    }

  }

}

聚合的排序

默认聚合是按照buckets的文档数进行排序的，我们也可以自己指定排序字段

#按照返回结果中bucket里的字段排序

#count and key

GET employees/_search

{

  "size": 0,

  "query": {

    "range": {

      "age": {

        "gte": 20

      }

    }

  },

  "aggs": {

    "jobs": {

      "terms": {

        "field":"job.keyword",

        "order":[

          {"_count":"asc"},

          {"_key":"desc"}

          ]

      }

    }

  }

}

#按照子聚合结果排序，如果单值输出，不用指定子聚合的字段

#count and key

GET employees/_search

{

  "size": 0,

  "aggs": {

    "jobs": {

      "terms": {

        "field":"job.keyword",

        "order":[  {

            "avg_salary":"desc"

          }]

      },

    "aggs": {

      "avg_salary": {

        "avg": {

          "field":"salary"

        }

      }

    }

    }

  }

}

#按照子聚合的字段排序，如果多值输出，需指定子聚合结果的字段

#count and key

GET employees/_search

{

  "size": 0,

  "aggs": {

    "jobs": {

      "terms": {

        "field":"job.keyword",

        "order":[  {

            "stats_salary.min":"desc"

          }]

      },

    "aggs": {

      "stats_salary": {

        "stats": {

          "field":"salary"

        }

      }

    }

    }

  }

}

聚合的精准度问题

我们需要关注返回结果的两个字段

doc_count_error_upper_bound
- 被遗漏的term分桶，包含的文档，有可能的最大值
sum_other_doc_count
- 除了返回结果bucket的terms以外，其他terms的文档总数（总数-返回的总数）

doc_count_error_upper_bound：例如，在取分桶后的前三个时，这里的值就是每个分片最后一个的文档数的和

sum_other_doc_count：所有文档数-分桶展示出来的文档总数

如何解决terms不准的问题

terms聚合分析不准的原因，数据分散在多个分片上，coordinating node无法获取数据全貌，
解决方案一、当数据量不大时，设置primary shard为1，实现准确性
解决方案二、在分布式数据上，设置shard_size参数，提高精准度
- 就是每次从shard上获取的比你size指定的更多的数据，提升准确率，你让我取前三，我分别取前6个，然后在组合起来取前三。
- shard size大小设定 size*1.5+10

GET my_flights/_search

{

  "size": 0,

  "aggs": {

    "weather": {

      "terms": {

        "field":"OriginWeather",

        "size":1,

        "shard_size":10,

        "show_term_doc_count_error":true//在返回结果中显示doc_count_error_upper_bound

      }

    }

  }

}

4.elasticsearch中聚合查询的更多相关文章

Elasticsearch(9) --- 聚合查询(Bucket聚合)
Elasticsearch(9) --- 聚合查询(Bucket聚合) 上一篇讲了Elasticsearch聚合查询中的Metric聚合:Elasticsearch(8) --- 聚合查询(Metri ...
Elasticsearch系列---聚合查询原理
概要本篇主要介绍聚合查询的内部原理,正排索引是如何建立的和优化的,fielddata的使用,最后简单介绍了聚合分析时如何选用深度优先和广度优先. 正排索引聚合查询的内部原理是什么,Elastich ...
Elasticsearch(8) --- 聚合查询(Metric聚合)
Elasticsearch(8) --- 聚合查询(Metric聚合) 在Mysql中,我们可以获取一组数据的最大值(Max).最小值(Min).同样我们能够对这组数据进行分组(Group).那么 ...
ElasticSearch实战系列五: ElasticSearch的聚合查询基础使用教程之度量(Metric)聚合
Title:ElasticSearch实战系列四: ElasticSearch的聚合查询基础使用教程之度量(Metric)聚合前言在上上一篇中介绍了ElasticSearch实战系列三: Elas ...
java操作elasticsearch实现聚合查询
1.max 最大值 //max 求最大值 @Test public void test30() throws UnknownHostException{ //1.指定es集群 cluster.name ...
elasticsearch 简单聚合查询示例
因为懒癌犯了,查询语句使用的截图而不是文字,导致了发布随笔的时候提示少于150字的随笔不能发布. 我就很郁闷了. 下面的查询都是前段时间工作中使用过的查询语句. 开始的时候是使用nodejs构建es查 ...
elasticsearch相关聚合查询示例
索引(index):logstash-nginx-*,type:nginx_access 请求路径: 1.按照某个字段进行分组统计访问量 { "query": { "bo ...
java使用elasticsearch分组进行聚合查询（group by）-项目中实际应用
java连接elasticsearch 进行聚合查询进行相应操作一:对单个字段进行分组求和 1.表结构图片: 根据任务id分组,分别统计出每个任务id下有多少个文字标题 .SQL:select id ...
java操作elasticsearch实现前缀查询、wildcard、fuzzy模糊查询、ids查询
1.前缀查询(prefix) //prefix前缀查询 @Test public void test15() throws UnknownHostException { //1.指定es集群 clus ...
Elasticsearch 常用基本查询
安装启动很简单,参考官网步骤:https://www.elastic.co/downloads/elasticsearch 为了介绍Elasticsearch中的不同查询类型,我们将对带有下列字段的文 ...

随机推荐

「loj - 6179」Pyh 的求和
link. 我们想要求出 $\varphi(ij)=\varphi(i)\varphi(j)C$ 中的常数.先研究 $i=p^a$,$j=p^b$ 的情况,即 \(\varphi(p^{a ...
简单的Oracle增删改查笔记
2023版：深度比较几种.NET Excel导出库的性能差异
引言背景和目的本文介绍了几个常用的电子表格处理库,包括EPPlus.NPOI.Aspose.Cells和DocumentFormat.OpenXml,我们将对这些库进行性能测评,以便为开发人员提供 ...
高效数据管理：Java助力实现Excel数据验证
摘要:本文由葡萄城技术团队原创并首发.转载请注明出处:葡萄城官网,葡萄城为开发者提供专业的开发工具.解决方案和服务,赋能开发者. 前言在Java中,开发者可以使用一些开源的库(如Apache POI ...
今天的第二道tarjan：受欢迎的牛
原题来自:USACO 2003 Fall 题目描述每头奶牛都梦想成为牛棚里的明星.被所有奶牛喜欢的奶牛就是一头明星奶牛.所有奶牛都是自恋狂,每头奶牛总是喜欢自己的.奶牛之间的"喜欢&quo ...
python~windows自动化工具 uiautomation库
微软提供了关于自动化操作PC端桌面应用程序的工具,官方描述为: Microsoft UI Automation is an accessibility framework that enables W ...
Redis主从复制部署小结
Redis主从搭建主从架构单节点Redis的并发能力是有上限的,要进一步提高Redis的并发能力,就需要搭建主从集群,实现读写分离. 主从数据同步原理全量同步主从第一次建立连接时,会执行全量同 ...
洛谷P3392 涂国旗（暴力枚举）
# 涂国旗 ## 题目描述某国法律规定,只要一个由 $N \times M$ 个小方块组成的旗帜符合如下规则,就是合法的国旗.(毛熊:阿嚏--) - 从最上方若干行(至少一行)的格子全部是白色的: ...
QT(9)-QStyleOption及其子类
1 QStyleOption QStyleOption及其子类包含QStyle函数绘制图形元素所需的所有信息. 出于性能考虑,成员函数很少,对成员变量的访问是直接的(即使用.或者->运算符).这 ...
JUC并发编程学习笔记（十四）异步回调
异步回调 Future设计的初衷:对将来的某个事件的结果进行建模在Future类的子类中可以找到CompletableFuture,在介绍中可以看到这是为非异步的请求使用一些异步的方法来处理点进具 ...