elasticsearch聚合操作——本质就是针对搜索后的结果使用桶bucket（允许嵌套）进行group by，统计下分组结果，包括min/max/avg

分析

Elasticsearch有一个功能叫做聚合(aggregations)，它允许你在数据上生成复杂的分析统计。它很像SQL中的GROUP BY但是功能更强大。

举个例子，让我们找到所有职员中最大的共同点（兴趣爱好）是什么：

GET .monitoring-es-6-2018.08.16/_search
{
"aggs": {
"all_interests": {
"terms": {
"field": "source_node.host"
}
}
}
}

暂时先忽略语法只看查询结果：

"aggregations": {
"all_interests": {
"doc_count_error_upper_bound": 0,
"sum_other_doc_count": 0,
"buckets": [
{
"key": "10.96.141.205",
"doc_count": 383515
},
{
"key": "10.96.141.203",
"doc_count": 8868
},
{
"key": "10.96.141.204",
"doc_count": 8866
},
{
"key": "10.96.141.209",
"doc_count": 8864
},
{
"key": "10.96.141.210",
"doc_count": 8862
}
]
}
}

我们可以看到两个职员对音乐有兴趣，一个喜欢林学，一个喜欢运动。这些数据并没有被预先计算好，它们是实时的从匹配查询语句的文档中动态计算生成的。如果我们想知道所有姓"Smith"的人最大的共同点（兴趣爱好），我们只需要增加合适的语句既可：

GET /megacorp/employee/_search

{

  "query": {

    "match": {

      "last_name": "smith"

    }

  },

  "aggs": {

    "all_interests": {

      "terms": {

        "field": "interests"

      }

    }

  }

}

all_interests聚合已经变成只包含和查询语句相匹配的文档了：

  ...

  "all_interests": {

     "buckets": [

        {

           "key": "music",

           "doc_count": 2

        },

        {

           "key": "sports",

           "doc_count": 1

        }

     ]

  }

聚合也允许分级汇总。例如，让我们统计每种兴趣下职员的平均年龄：

GET /megacorp/employee/_search

{

    "aggs" : {

        "all_interests" : {

            "terms" : { "field" : "interests" },

            "aggs" : {

                "avg_age" : {

                    "avg" : { "field" : "age" }

                }

            }

        }

    }

}

虽然这次返回的聚合结果有些复杂，但任然很容易理解：

  ...

  "all_interests": {

     "buckets": [

        {

           "key": "music",

           "doc_count": 2,

           "avg_age": {

              "value": 28.5

           }

        },

        {

           "key": "forestry",

           "doc_count": 1,

           "avg_age": {

              "value": 35

           }

        },

        {

           "key": "sports",

           "doc_count": 1,

           "avg_age": {

              "value": 25

           }

        }

     ]

  }

该聚合结果比之前的聚合结果要更加丰富。我们依然得到了兴趣以及数量（指具有该兴趣的员工人数）的列表，但是现在每个兴趣额外拥有avg_age字段来显示具有该兴趣员工的平均年龄。

即使你还不理解语法，但你也可以大概感觉到通过这个特性可以完成相当复杂的聚合工作，你可以处理任何类型的数据。

为了掌握聚合aggs语法，你一定要了解两个主要概念：

Buckets(桶)：

满足某个条件的文档集合。

Metrics(指标)：

为某个桶中的文档计算得到的统计信息。

就是这样！每个聚合只是简单地由一个或者多个桶，零个或者多个指标组合而成。

桶和SQL中的组(Grouping)拥有相似的概念，而指标则与COUNT()，SUM()，MAX()，MIN(), AVG()等相似。

让我们仔细看看这些概念。

桶(Buckets)

一个桶就是满足特定条件的一个文档集合：

一名员工要么属于男性桶，或者女性桶。

一个聚合就是一些桶和指标的组合。一个聚合可以只有一个桶，或者一个指标，或者每样一个。在桶中甚至可以有多个嵌套的桶。比如，我们可以将文档按照其所属国家进行分桶，然后对每个桶计算其平均薪资(一个指标)。

因为桶是可以嵌套的，我们能够实现一个更加复杂的聚合操作：

将文档按照国家进行分桶。(桶)
然后将每个国家的桶再按照性别分桶。(桶)
然后将每个性别的桶按照年龄区间进行分桶。(桶)
最后，为每个年龄区间计算平均薪资。

大家一定要理解Buckets(桶)及Metrics(指标)概念，buckets多层嵌套的概念，想基于哪个桶做统计计算，只需要嵌入一层aggs就可以了。

本文转自张昺华-sky博客园博客，原文链接：http://www.cnblogs.com/bonelee/p/6344688.html，如需转载请自行联系原作者

elasticsearch聚合操作——本质就是针对搜索后的结果使用桶bucket（允许嵌套）进行group by，统计下分组结果，包括min/max/avg的更多相关文章

JS中Float类型加减乘除修复 JQ 操作 radio、checkbox 、select LINQ to SQL:Where、Select/Distinct LINQ to SQL Count/Sum/Min/Max/Avg Join
JS中Float类型加减乘除修复 MXS&Vincene ─╄OvЁ &0000027─╄OvЁ MXS&Vincene MXS&Vincene ─╄Ov ...
Elasticsearch聚合操作报错解决办法
1. 当根据一个类型为text的字段idc进行聚合操作时,查询语句如下: { "aggs": { "top_10_states": { "terms& ...
Elasticsearch 聚合操作
数据准备: PUT /shop { "settings": { "number_of_shards": 3, "number_of_replicas& ...
Elasticsearch学习(4) spring boot整合Elasticsearch的聚合操作
之前已将spring boot原生方式介绍了,接下将结介绍的是Elasticsearch聚合操作.聚合操作一般来说是解决一下复杂的业务,比如mysql中的求和和分组,由于博主踩的坑比较多,所以博客可能 ...
elasticsearch聚合之bucket terms聚合
目录 1. 背景 2. 前置条件 2.1 创建索引 2.2 准备数据 3. 各种聚合 3.1 统计人数最多的2个省 3.1.1 dsl 3.1.2 运行结果 3.2 统计人数最少的2个省 3.2.1 ...
Elasticsearch聚合之 Range区间聚合
Elasticsearch提供了多种聚合方式,能帮助用户快速的进行信息统计与分类,本篇主要讲解下如何使用Range区间聚合. 最简单的例子,想要统计一个班级考试60分以下.60到80分.80到100分 ...
ElasticSearch聚合分析
聚合用于分析查询结果集的统计指标,我们以观看日志分析为例,介绍各种常用的ElasticSearch聚合操作. 目录: 查询用户观看视频数和观看时长聚合分页器查询视频uv 单个视频uv 批量查询视频 ...
OpenStack/Gnocchi简介——时间序列数据聚合操作提前计算并存储起来，先算后取的理念
先看下 http://www.cnblogs.com/bonelee/p/6236962.html 这里对于环形数据库的介绍,便于理解归档这个操作! 转自:http://blog.sina.com.c ...
ElasticSearch 学习记录之ES几种常见的聚合操作
ES几种常见的聚合操作普通聚合 POST /product/_search { "size": 0, "aggs": { "agg_city&quo ...

随机推荐

python Django 文件下载示例
from django.http import StreamingHttpResponse#文件流 def big_file_download(request): # do something... ...
SogouCloud.exe进程导致SQL Server服务无法启动
早上打开笔记本想开启SQL Server服务时报错,于是根据提示查看windows日志: 依次点开报错发现第一条是1433端口被占用,于是找相关的进程: 于是杀掉此进程: taskkill /pid ...
如何阅读luajit的代码——用vs调试篇
为什么要看luajit的源码作为目前最快的脚本语言之一,luajit确实是一个杰作,但相比原生lua仅仅几万行的代码而言,luajit却可以说是巨无霸.更要命的是,luajit之所以快,是因为大量使 ...
js实现的省市联动
最近工作,要用到省市联动的功能.网上搜了一下,发现有很多这样的例子,看了不少实例,把觉得写得不错的代码穿上来,好给大家分享一下. <!DOCTYPE html PUBLIC "-//W ...
Ubuntu 16.04安装JDK（转载）
1.简单的安装方法安装JDK的最简单方法应该就是使用apt-get来安装了,但是源一般是OpenJDK,如果需要安装Oracle的JDK这种方法就不合适了,直接跳过看下面的章节. 1.使用ctrl+ ...
使用selenium时，使用从系统启动浏览器与通过自动化驱动方式启动浏览器控件ID不一样解决方法
最近遇到一个怪事,通过正常打开浏览器,按照正常的web登录然后点击进入系统流程,将各控件的ID识别成功,然后使用 python3+selenium写好脚本,高高兴兴的用脚本跑时老是提示找不到控件,然后 ...
spring cloud(Greenwich.M2) hystrix dashboard 报/actuator/hystrix.stream 404 Not Found的问题
consumer端不引用spring-boot-starter-actuator的情况 Consumer端会报Unable to connect to Command Metric Stream.新建 ...
Pandas 处理丢失数据
处理丢失数据 import pandas as pd from pandas import Series, DataFrame import numpy as np 有两种丢失数据: 1. None ...
WPF中应用字体图标
一.什么是字体图标我们在进行GDI(图形界面)编程的过程中图标是不可少的.近些年随着网络的繁荣和移动应用的繁荣,矢量图的应用越来越火. 矢量图是一种用数学方法描述的.由一系列点和线组成的图,因此相比 ...
centos7下安装docker（17.1docker监控---sysdig）
sysdig是一个轻量级的系统监控工具,同时原生支持容器.通过sysdig我们可以近距离观察linux操作系统和容器的行为 Linux上有很多常用的监控工具,比如;strace,tcpdump,hto ...

elasticsearch聚合操作——本质就是针对搜索后的结果使用桶bucket（允许嵌套）进行group by，统计下分组结果，包括min/max/avg

分析

elasticsearch聚合操作——本质就是针对搜索后的结果使用桶bucket（允许嵌套）进行group by，统计下分组结果，包括min/max/avg的更多相关文章

随机推荐

热门专题