本文首发于公众号:Hunter后端

原文链接:es笔记六之聚合操作之指标聚合

聚合操作,在 es 中的聚合可以分为大概四种聚合:

  • bucketing(桶聚合)
  • mertic(指标聚合)
  • matrix(矩阵聚合)
  • pipeline(管道聚合)

bucket

类似于分类分组,按照某个 key 将符合条件的数据都放到该类别的组中

mertic

计算一组文档的相关值,比如最大,最小值

matrix

根据多个 key 从文档中提取值生成矩阵,这个操作不支持脚本(script)

pipeline

将其他聚合的结果再次聚合输出

聚合是支持套娃(嵌套)操作的,你可以在聚合的结果上接着进行聚合操作,es 是不限制聚合的深度的。

本篇笔记目录如下:

  1. 指标聚合的基本结构
  2. 平均值聚合
  3. 去重统计
  4. 聚合统计汇总
  5. 最大值、最小值聚合
  6. 百分位统计
  7. 百分位排名
  8. 字符串统计聚合
  9. sum 统计总和操作
  10. count 统计总数操作
  11. top hit 操作

1、指标聚合的基本结构

指标聚合操作的基本结构大致如下:

GET /bank/_search
{
"size": 0,
"aggs": {
"aggregation_name": {
"agg_name": {
"field": "field_name"
}
}
}
}

其中,aggregation_name 为聚合返回结果的名称,由我们自己定义,agg_name 为聚合的参数,比如最大值最小值,平均值等,这个我们在下面介绍。

指标聚合

指标聚合是从文档中提取字段值出来进行计算得出结果,比如最大最小平均值等。

接下来将详细介绍各种指标聚合操作。

2、平均值聚合

GET /bank/_search
{
"size": 0,
"aggs": {
"avg_balance": {
"avg": {
"field": "balance"
}
}
}
}

其中,最外层的 aggs 表示是聚合操作,avg_balance 是聚合的名称,avg 则表示是平均值聚合,里面的 field 表示聚合的字段是 balance 字段

在这里,如果不添加 size=0,除了会返回我们的聚合结果,还会返回聚合的源数据。

这个操作我们返回的结果如下:

{
"took" : 1,
"timed_out" : false,
"_shards" : {
"total" : 1,
"successful" : 1,
"skipped" : 0,
"failed" : 0
},
"hits" : {
"total" : {
"value" : 1000,
"relation" : "eq"
},
"max_score" : null,
"hits" : [ ]
},
"aggregations" : {
"avg_balance" : {
"value" : 25714.837
}
}
}

我们聚合的结果在 aggregations 这个 key 下。

脚本执行

脚本执行的方式如下:

GET /bank/_search
{
"size": 0,
"aggs": {
"avg_balance": {
"avg": {
"script": {"source": "doc.balance.value"}
}
}
}
}

对结果处理

假设,我们需要对这个平均值结果进行处理,比如我们计算出来的这个值是 2000,我们想要对这个值进行修正,比如乘以 1.2。

当然,这个乘的操作我们可以获取数据之后在系统里进行操作,如果是直接在 es 的处理中,我们可以如下实现:

GET /bank/_search
{
"size": 0,
"aggs": {
"avg_corrected_balance": {
"avg": {
"field": "balance",
"script": {
"lang": "painless",
"source": "_value * params.correction",
"params": {"correction": 1.2} }
}
},
"avg_balance": {
"avg": {
"script": {"source": "doc.balance.value"}
}
}
}
}

在上面的语句中,我们新增了一个 params 字段,定义了一个 correction 的值,然后返回的结果乘以了这个值。

在这里,我额外加了一个 avg_balance,是直接用的平均值聚合结果,主要是用来对比这两个结果。

缺失值补充

有一些情况,我们在导入数据的时候,可能某条数据的某个字段是没有值的,默认情况下他们是会被忽略的,不计入计算的,但是如果想要为其加一个默认值也是可以实现的,这里我们用到 missing 这个参数来定义:

GET /bank/_search
{
"size": 0,
"aggs": {
"avg_balance": {
"avg": {
"field": "balance",
"missing": 0
}
}
}
}

3、去重统计

是对某个字段进行去重后统计总数,操作如下:

GET /bank/_search
{
"size": 0,
"aggs": {
"age_count": {
"cardinality": {
"field": "age"
}
}
}
}

需要注意的是,这个统计对于 text 字段属性是不生效的

4、聚合统计汇总

有一个聚合统计汇总的参数 stats,可以将一般的聚合值进行汇总后返回,比如总数,最大值,最小值等,使用如下:

GET /bank/_search
{
"size": 0,
"aggs": {
"age_stats": {
"stats": {
"field": "age"
}
}
}
}

可以看到返回的值如下:

{
...
"aggregations" : {
"age_stats" : {
"count" : 1000,
"min" : 20.0,
"max" : 40.0,
"avg" : 30.171,
"sum" : 30171.0
}
}
}

如果还想获得方差,标准差等数据,可以使用这个参数的扩展版 extended_stats,替换聚合的参数 stats 即可。

5、最大值、最小值聚合

最大值最小值的关键字是 max 和 min,使用示例如下:

GET /bank/_search
{
"size": 0,
"aggs": {
"max_age": {
"max": {"field": "age"}
},
"min_age": {
"min": {"field": "age"}
}
}
}

使用脚本的方式来实现:

GET /bank/_search
{
"size": 0,
"aggs": {
"max_age": {
"max": {"script": {"source": "doc.age.value"}}
}
}
}

6、百分位统计

使用 es 进行百分位的统计,用到的关键字是 percentiles

使用示例如下:

GET /bank/_search
{
"size": 0,
"aggs": {
"age_percentiles": {
"percentiles": {
"field": "age"
}
}
}
}

会输出 [1, 5, 25, 75, 95, 99] 的统计数:

{
...
"aggregations" : {
"age_percentiles" : {
"values" : {
"1.0" : 20.0,
"5.0" : 21.0,
"25.0" : 25.0,
"50.0" : 30.8,
"75.0" : 35.0,
"95.0" : 39.0,
"99.0" : 40.0
}
}
}
}

我们也可以指定统计的百分位的数列表,比如我们只想知道 [75, 98, 99, 99.9] 的数据:

GET /bank/_search
{
"size": 0,
"aggs": {
"age_percentiles": {
"percentiles": {
"field": "age",
"percents": [75, 98, 99, 99.9]
}
}
}
}

我们直接使用是返回的百分位-数据的格式,我们也可以使用 {'key': xx, 'value': xx} 来返回一个列表,加上一个参数 keyed=false 即可

GET /bank/_search
{
"size": 0,
"aggs": {
"age_percentiles": {
"percentiles": {
"field": "age",
"keyed": false
}
}
}
}

返回的结果示例如下:

    "age_percentiles" : {
"values" : [
...
{
"key" : 75.0,
"value" : 35.0
},
{
"key" : 95.0,
"value" : 39.0
},
{
"key" : 99.0,
"value" : 40.0
}
]
}
}
}

7、百分位排名

这个是和前面的百分位统计相反的操作。

前面是根据百分位获取该百分位值,这个参数的作用是根据数据获取在系统中的百分位,使用示例如下:

GET /bank/_search
{
"size": 0,
"aggs": {
"age_ranks": {
"percentile_ranks": {
"field": "age",
"values": [
30,
35,
40
]
}
}
}
}

8、字符串统计聚合

对于字符串类型的数据,有一个专门的参数来获取相应的聚合统计值,为 string_stats

对 lastname 字段的统计示例如下:

GET /bank/_search
{
"size": 0,
"aggs": {
"last_name_stats": {
"string_stats": {"field": "lastname.keyword"}
}
}
}

需要注意,如果我们需要进行统计的字段如果是 text 字段,那么就需要加上 .keyword 来进行统计,如果是字段属性是 keyword,就不需要这样处理。

经过统计返回的数据如下:

  ...
"aggregations" : {
"last_name_stats" : {
"count" : 1000,
"min_length" : 2,
"max_length" : 11,
"avg_length" : 6.122,
"entropy" : 4.726472133462717
}
}
}

以上信息包括数据总数,lastname 字段最长和最短长度,平均长度和熵值

9、sum 统计总和操作

比如我们需要对 bank 这个数据库的 age 字段进行 sum 的操作,可以如下操作:

GET /bank/_search
{
"size": 0,
"aggs": {
"age_sum": {
"sum": {"field": "age"}
}
}
}

在前面的每一个聚合操作里,都可以进行 query 的条件筛选,比如获取 age=21 的数据的 sum 值:

GET /bank/_search
{
"size": 0,
"query": {"match": {"age": "21"}},
"aggs": {
"age_sum": {
"sum": {"field": "age"}
}
}
}

10、count 统计总数操作

count 是统计总数,使用示例如下:

GET /bank/_search
{
"size": 0,
"aggs": {
"age_count": {
"value_count": {
"field": "age"
}
}
}
}

11、top hit 操作

top hit 操作是根据条件返回符合条件的前几条数据,通过 size 控制返回的数量。

我们先来看下下面的这个操作:

GET /bank/_search
{
"size": 0,
"aggs": {
"top_ages": {
"terms": {
"field": "age",
"size": 30
}
}
}
}

这个操作其实就是一个桶聚合,它会在下一篇笔记中介绍,这里我们直接用一下,它返回字段为 age,以及它在文档中的数量:

  ...
"aggregations" : {
"top_ages" : {
"doc_count_error_upper_bound" : 0,
"sum_other_doc_count" : 0,
"buckets" : [
{
"key" : 31,
"doc_count" : 61
},
{
"key" : 39,
"doc_count" : 60
},
{
"key" : 26,
"doc_count" : 59
},
...

top_hits 的操作是在第一个 aggs 聚合操作条件下,进行再次聚合。

比如我们想要获取各个 age 的数据中,按照 balance 字段进行倒序排序的前三个,我们可以如下操作:

GET /bank/_search
{
"size": 0,
"aggs": {
"top_ages": {
"terms": {
"field": "age",
"size": 30
},
"aggs": {
"top_balance_hits": {
"top_hits": {
"size": 3,
"sort": [{"balance": {"order": "desc"}}]
}
}
}
}
}
}

然后在第一次聚合返回的结果中,就会多一个 top_balance_hits 字段,也就是我们在查询操作中指定的,其下会有三条按照 balance 字段倒序返回的数据:

  ...
"aggregations" : {
"top_ages" : {
"doc_count_error_upper_bound" : 0,
"sum_other_doc_count" : 0,
"buckets" : [
{
"key" : 31,
"doc_count" : 61,
"top_balance_hits" : {
"hits" : {
"total" : {
"value" : 61,
"relation" : "eq"
},
"max_score" : null,
"hits" : [
...
]
},
{
"key" : 39,
"doc_count" : 60,
...
},
{
"key" : 26,
"doc_count" : 59,
...
},
...

如果想获取更多后端相关文章,可扫码关注阅读:

es笔记六之聚合操作之指标聚合的更多相关文章

  1. Python学习笔记六:数据库操作

    一:Python操作数据库的流程 二:开发环境准备 1:开发工具PyCharm 2:Python操作mysql的工具:需要安装Python-Mysql Connector,网址:https://sou ...

  2. JDK1.8聚合操作

    在java8 JDK包含许多聚合操作(如平均值,总和,最小,最大,和计数),返回一个计算流stream的聚合结果.这些聚合操作被称为聚合操作.JDK除返回单个值的聚合操作外,还有很多聚合操作返回一个c ...

  3. Java自学-集合框架 聚合操作

    聚合操作 步骤 1 : 聚合操作 JDK8之后,引入了对集合的聚合操作,可以非常容易的遍历,筛选,比较集合中的元素. 像这样: String name =heros .stream() .sorted ...

  4. Django笔记十六之aggregate聚合操作

    本文首发于微信公众号:Hunter后端 原文链接:Django笔记十六之aggregate聚合操作 这一篇笔记介绍一下关于聚合的操作,aggregate. 常用的聚合操作比如有平均数,总数,最大值,最 ...

  5. ElasticSearch 学习记录之ES几种常见的聚合操作

    ES几种常见的聚合操作 普通聚合 POST /product/_search { "size": 0, "aggs": { "agg_city&quo ...

  6. ES系列十四、ES聚合分析(聚合分析简介、指标聚合、桶聚合)

    一.聚合分析简介 1. ES聚合分析是什么? 聚合分析是数据库中重要的功能特性,完成对一个查询的数据集中数据的聚合计算,如:找出某字段(或计算表达式的结果)的最大值.最小值,计算和.平均值等.ES作为 ...

  7. elasticsearch系列六:聚合分析(聚合分析简介、指标聚合、桶聚合)

    一.聚合分析简介 1. ES聚合分析是什么? 聚合分析是数据库中重要的功能特性,完成对一个查询的数据集中数据的聚合计算,如:找出某字段(或计算表达式的结果)的最大值.最小值,计算和.平均值等.ES作为 ...

  8. MongoDB学习笔记——聚合操作之聚合管道(Aggregation Pipeline)

    MongoDB聚合管道 使用聚合管道可以对集合中的文档进行变换和组合. 管道是由一个个功能节点组成的,这些节点用管道操作符来进行表示.聚合管道以一个集合中的所有文档作为开始,然后这些文档从一个操作节点 ...

  9. 白日梦的ES笔记三:万字长文 Elasticsearch基础概念统一扫盲

    目录 一.导读 二.彩蛋福利:账号借用 三.ES的Index.Shard及扩容机制 四.ES支持的核心数据类型 4.1.数字类型 4.2.日期类型 4.3.boolean类型 4.4.二进制类型 4. ...

  10. 04-springboot整合elasticsearch初识-简单增删改查及复杂排序,分页,聚合操作

        前面大概了解了一下elasticsearch的数据存储和数据的查询.现在学习一下,es的复杂操作.     官网相关文档地址:https://www.elastic.co/guide/en/e ...

随机推荐

  1. Linux & 标准C语言学习 <DAY3>

    C语言简介:     BCPL->New B->C->UNIX->Minix->Linux->gcc     C语言诞生于1971~1973年,美国贝尔实验室,肯. ...

  2. 声网Agora发布教育信息化解决方案 助力教育公平提效

    4月23日-25日,由中国教育装备行业协会主办的第79届教育装备展在厦门国际会展中心举办.作为赋能教育信息化的实时互动PaaS服务商,声网Agora应邀参会.展会现场,声网展示了基于实时音视频互动能力 ...

  3. Mac基本命令操作

    Mac使用常见命令 删除空目录:rmdir 目录 删除文件夹:rm -rf 文件夹 创建一个文件夹:mkdir 文件名 创建一个文件:touch 文件 修改一个文件:vi 文件名 重命名文件 mv 原 ...

  4. selenium之文件的上传

    文件的上传:主要是两种实现方法: 1.如果定位的元素是type类型是file类型的话,那么直接定位元素并使用send_keys方法完成文件上传 2.如果是非file类型的话,则需要使用第三方工具完成文 ...

  5. selenium验证码处理-获取验证码图片二进流数据转成原图保存

    1.因为视频的作者给的代码不完整,只有核心部分的代码. 2.视频作者示例使用的第三方破解12306的脚本网页(失效了) 所以本人无法复现,此次截取部分代码作为理解核心意思(思想方法最重要) 1.面向对 ...

  6. 【牛客小白月赛70】A-F题解【小d和超级泡泡堂】【小d和孤独的区间】【小d的博弈】【小d和送外卖】

    比赛传送门:https://ac.nowcoder.com/acm/contest/53366 难度适中. 作者:Eriktse 简介:19岁,211计算机在读,现役ACM银牌选手力争以通俗易懂的方式 ...

  7. 四月七号java基础学习

    1.数据类型分为基本数据类型以及引用数据类型 基本数据类型有整型.浮点型.字符型.布尔型 引用数据类型有类.数组以及接口 2.常量的声明需要用关键字final来标识 3.JAVA语言的变量名称由数字, ...

  8. day30:TCP&UDP:socket

    目录 1.TCP协议和UDP协议 2.什么是socket? 3.socket正文 1.TCP基本语法 2.TCP循环发消息 3.UDP基本语法 4.UDP循环发消息 4.黏包 5.解决黏包问题 1.解 ...

  9. pytorch图像处理基础

    pytorch 图像预处理transforms from torchvision.transforms import transforms transforms.Compose() 作用:将一系列的t ...

  10. v-if与v-for的优先级

    在Vue2中 v-for的优先级要高于v-if 在Vue3中 v-if 的优先级要高于v-for