4.elasticsearch中聚合查询

elasticsearch聚合查询

什么是聚合，就是目的不是查询具体的文档，而是查询文档的相关性，此外还可以对聚合的文档在按照其他维度再聚合。

包含以下四种聚合

Bucket Aggregation 一些列满足特定条件的文档的集合
- terms 对某个字段统计每个不同的内容，以及出现文档的个数
- range 某个范围内文档的个数
Metric Aggregation 一些数学运算，可以对文档字段进行统计分析
- 输出一个值，min/max/sum/avg/cardinality
- 输出多个值，stats/percentiles/percentile_ranks
Pipeline Aggregation 对其他的聚合结果进行二次聚合（不是对文档进行聚合）
Matrix Aggregation 支持对多个字段的操作并提供一个结果矩阵

#按照目的地进行分桶统计 Bucket Aggregation

GET kibana_sample_data_flights/_search

{

    "size": 0,

    "aggs":{

        "flight_dest":{

            "terms":{

                "field":"DestCountry"

            }

        }

    }

}

#查看航班目的地的统计信息，增加平均，最高最低价格 Metric Aggregation

GET kibana_sample_data_flights/_search

{

    "size": 0,

    "aggs":{

        "flight_dest":{

            "terms":{

                "field":"DestCountry"

            },

            "aggs":{

                "avg_price":{

                    "avg":{

                        "field":"AvgTicketPrice"

                    }

                },

                "max_price":{

                    "max":{

                        "field":"AvgTicketPrice"

                    }

                },

                "min_price":{

                    "min":{

                        "field":"AvgTicketPrice"

                    }

                }

            }

        }

    }

}

#价格统计信息+天气信息 Metric Aggregation

GET kibana_sample_data_flights/_search

{

    "size": 0,

    "aggs":{

        "flight_dest":{

            "terms":{

                "field":"DestCountry"

            },

            "aggs":{

                "stats_price":{

                    "stats":{

                        "field":"AvgTicketPrice"

                    }

                },

                "wather":{

                  "terms": {

                    "field": "DestWeather",

                    "size": 5

                  }

                }

            }

        }

    }

}

# 平均工资最低的工作类型

GET employees/_search

{

  "size": 0,

  "aggs": {

    "jobs": {

      "terms": {

        "field": "job.keyword",

        "size": 10

      },

      "aggs": {

        "avg_salary": {

          "avg": {

            "field": "salary"

          }

        }

      }

    },

    "min_salary_by_job":{

      "min_bucket": {

        "buckets_path": "jobs>avg_salary"

      }

    }

  }

}

聚合的作用范围

默认聚合范围是全文，但是如果有query查询，那么聚合的范围就是query查询的结果

# Query

GET employees/_search

{

  "size": 0,

  "query": {

    "range": {

      "age": {

        "gte": 20

      }

    }

  },

  "aggs": {

    "jobs": {

      "terms": {

        "field":"job.keyword"

      }

    }

  }

}

如果有聚合中有filter过滤，那么其子聚合的作用范围是filter过滤的文档，但是和此聚合并列的聚合，不受filter影响

#Filter

GET employees/_search

{

  "size": 0,

  "aggs": {

    "older_person": {

      "filter":{

        "range":{

          "age":{

            "from":35

          }

        }

      },

      "aggs":{

         "jobs":{

           "terms": {

        "field":"job.keyword"

      }

      }

    }},

    "all_jobs": {

      "terms": {

        "field":"job.keyword"

      }

    }

  }

}

我们可以指定一些作用范围，关键字是 post_filter、global

#Post field. 一条语句，找出所有的job类型。还能找到聚合后符合条件的结果

GET employees/_search

{

  "aggs": {

    "jobs": {

      "terms": {

        "field": "job.keyword"

      }

    }

  },

  "post_filter": {

    "match": {

      "job.keyword": "Dev Manager"

    }

  }

}

#global global会无视query条件，对全部文档进行统计

GET employees/_search

{

  "size": 0,

  "query": {

    "range": {

      "age": {

        "gte": 40

      }

    }

  },

  "aggs": {

    "jobs": {

      "terms": {

        "field":"job.keyword"

      }

    },

    "all":{

      "global":{},

      "aggs":{

        "salary_avg":{

          "avg":{

            "field":"salary"

          }

        }

      }

    }

  }

}

聚合的排序

默认聚合是按照buckets的文档数进行排序的，我们也可以自己指定排序字段

#按照返回结果中bucket里的字段排序

#count and key

GET employees/_search

{

  "size": 0,

  "query": {

    "range": {

      "age": {

        "gte": 20

      }

    }

  },

  "aggs": {

    "jobs": {

      "terms": {

        "field":"job.keyword",

        "order":[

          {"_count":"asc"},

          {"_key":"desc"}

          ]

      }

    }

  }

}

#按照子聚合结果排序，如果单值输出，不用指定子聚合的字段

#count and key

GET employees/_search

{

  "size": 0,

  "aggs": {

    "jobs": {

      "terms": {

        "field":"job.keyword",

        "order":[  {

            "avg_salary":"desc"

          }]

      },

    "aggs": {

      "avg_salary": {

        "avg": {

          "field":"salary"

        }

      }

    }

    }

  }

}

#按照子聚合的字段排序，如果多值输出，需指定子聚合结果的字段

#count and key

GET employees/_search

{

  "size": 0,

  "aggs": {

    "jobs": {

      "terms": {

        "field":"job.keyword",

        "order":[  {

            "stats_salary.min":"desc"

          }]

      },

    "aggs": {

      "stats_salary": {

        "stats": {

          "field":"salary"

        }

      }

    }

    }

  }

}

聚合的精准度问题

我们需要关注返回结果的两个字段

doc_count_error_upper_bound
- 被遗漏的term分桶，包含的文档，有可能的最大值
sum_other_doc_count
- 除了返回结果bucket的terms以外，其他terms的文档总数（总数-返回的总数）

doc_count_error_upper_bound：例如，在取分桶后的前三个时，这里的值就是每个分片最后一个的文档数的和

sum_other_doc_count：所有文档数-分桶展示出来的文档总数

如何解决terms不准的问题

terms聚合分析不准的原因，数据分散在多个分片上，coordinating node无法获取数据全貌，
解决方案一、当数据量不大时，设置primary shard为1，实现准确性
解决方案二、在分布式数据上，设置shard_size参数，提高精准度
- 就是每次从shard上获取的比你size指定的更多的数据，提升准确率，你让我取前三，我分别取前6个，然后在组合起来取前三。
- shard size大小设定 size*1.5+10

GET my_flights/_search

{

  "size": 0,

  "aggs": {

    "weather": {

      "terms": {

        "field":"OriginWeather",

        "size":1,

        "shard_size":10,

        "show_term_doc_count_error":true//在返回结果中显示doc_count_error_upper_bound

      }

    }

  }

}

4.elasticsearch中聚合查询的更多相关文章

Elasticsearch(9) --- 聚合查询(Bucket聚合)
Elasticsearch(9) --- 聚合查询(Bucket聚合) 上一篇讲了Elasticsearch聚合查询中的Metric聚合:Elasticsearch(8) --- 聚合查询(Metri ...
Elasticsearch系列---聚合查询原理
概要本篇主要介绍聚合查询的内部原理,正排索引是如何建立的和优化的,fielddata的使用,最后简单介绍了聚合分析时如何选用深度优先和广度优先. 正排索引聚合查询的内部原理是什么,Elastich ...
Elasticsearch(8) --- 聚合查询(Metric聚合)
Elasticsearch(8) --- 聚合查询(Metric聚合) 在Mysql中,我们可以获取一组数据的最大值(Max).最小值(Min).同样我们能够对这组数据进行分组(Group).那么 ...
ElasticSearch实战系列五: ElasticSearch的聚合查询基础使用教程之度量(Metric)聚合
Title:ElasticSearch实战系列四: ElasticSearch的聚合查询基础使用教程之度量(Metric)聚合前言在上上一篇中介绍了ElasticSearch实战系列三: Elas ...
java操作elasticsearch实现聚合查询
1.max 最大值 //max 求最大值 @Test public void test30() throws UnknownHostException{ //1.指定es集群 cluster.name ...
elasticsearch 简单聚合查询示例
因为懒癌犯了,查询语句使用的截图而不是文字,导致了发布随笔的时候提示少于150字的随笔不能发布. 我就很郁闷了. 下面的查询都是前段时间工作中使用过的查询语句. 开始的时候是使用nodejs构建es查 ...
elasticsearch相关聚合查询示例
索引(index):logstash-nginx-*,type:nginx_access 请求路径: 1.按照某个字段进行分组统计访问量 { "query": { "bo ...
java使用elasticsearch分组进行聚合查询（group by）-项目中实际应用
java连接elasticsearch 进行聚合查询进行相应操作一:对单个字段进行分组求和 1.表结构图片: 根据任务id分组,分别统计出每个任务id下有多少个文字标题 .SQL:select id ...
java操作elasticsearch实现前缀查询、wildcard、fuzzy模糊查询、ids查询
1.前缀查询(prefix) //prefix前缀查询 @Test public void test15() throws UnknownHostException { //1.指定es集群 clus ...
Elasticsearch 常用基本查询
安装启动很简单,参考官网步骤:https://www.elastic.co/downloads/elasticsearch 为了介绍Elasticsearch中的不同查询类型,我们将对带有下列字段的文 ...

随机推荐

Modbus转Profinet网关改写变频器运行状态在1200PLC程序控制实例
兴达易控Modbus转Profinet网关将丹佛斯变频器接入西门子 1200PLC 配置案例案例简介: 本案例是兴达易控Modbus转Profinet网关连接丹佛斯变频器在西门子 1200PLC程序 ...
Springboot简单功能示例-3 实现基本登录验证
springboot-sample 介绍 springboot简单示例跳转到发行版查看发行版说明软件架构(当前发行版使用) springboot hutool-all 非常好的常用java工具库 ...
C语言条件运算符（?:）
条件运算符(conditional operator)有时候也称为三元运算符(ternary operator,或者trinary operator),因为它是唯一需要 3 个操作数的运算符: 条件 ...
RPM软件包：Red HatPackage Manager，RPM
RPM软件包是按照GPL条款发行在各个linux版本上使用. 用途可以安装.删除.升级.刷新和管理RPM软件包通过RPM软件包管理能知道软件包包含哪些文件,也能知道系统中的某个文件属于哪个RPM软 ...
Excel--比较两列数据的异同
首先得到的数据分为两列,两种类型.由于在网站上搜索的时候,网站的"特殊性"会将000638-32-4 前面的0全部去掉.变成了638-32-4.基于得到了两列稍有不同的数据.由于人 ...
多维评测指标解读第17届MSU世界编码器大赛全高清10bit赛道结果
超高清视频纤毫毕现的关键一环. 01 主要指标多项第一,带宽节省48% 近日,第17届MSU世界编码器大赛全高清10bit赛道成绩揭晓,阿里自研的H.266/VVC编码器Ali266在该赛道最高效的1 ...
【Azure Logic App】在Azure Logic App中使用SMTP发送邮件示例
问题描述在Azure Logic App的官网介绍中,使用SMTP组件发送邮件非常简单(https://docs.azure.cn/zh-cn/connectors/connectors-creat ...
虹科干货｜Redis企业版数据库为企业「数据安全」叠加最强Buff！
"这是一场可预见的噩梦!" 近期,黑客通过攻击亚洲最大两家数据中心-万国数据和新科电信媒体,获取国际巨头企业的登录凭证,引发了2000多家企业史诗级数据泄露.中国作为全球第二大托管 ...
洛谷P3612（递归）
题目描述 The cows are experimenting with secret codes, and have devised a method for creating an infinit ...
数据结构-线性表-双向链表（c++）
与单循环链表类似,但析构函数需要注意析构函数: 因为while循环的条件是p->next!=front,所以不能直接delete front: template<class T> ...