search（12）- elastic4s-聚合=桶+度量

这篇我们介绍一下ES的聚合功能（aggregation）。聚合是把索引数据可视化处理成可读有用数据的主要工具。聚合由bucket桶和metrics度量两部分组成。

所谓bucket就是SQL的GROUPBY，如下：

GET /cartxns/_search

{

  "size" : ,

  "aggs": {

    "color": {

      "terms": {"field": "color.keyword"}

    }

  }

}

...

  "aggregations" : {

    "color" : {

      "doc_count_error_upper_bound" : ,

      "sum_other_doc_count" : ,

      "buckets" : [

        {

          "key" : "red",

          "doc_count" :

        },

        {

          "key" : "blue",

          "doc_count" :

        },

        {

          "key" : "green",

          "doc_count" :

        }

      ]

    }

  }

上面这个例子中是以color.keyword为bucket的。elastic4是如下表现的：

val aggTerms = search("cartxns").aggregations(

    termsAgg("colors","color.keyword").includeExactValues("red","green")

  ).sourceInclude("color","make").size()

  println(aggTerms.show)

  val termsResult = client.execute(aggTerms).await

  termsResult.result.hits.hits.foreach(m => println(m.sourceAsMap))

  termsResult.result.aggregations.terms("colors").buckets.foreach(b => println(s"${b.key},${b.docCount}"))

输出为：

POST:/cartxns/_search?

StringEntity({"size":,"_source":{"includes":["color","make"]},"aggs":{"colors":{"terms":{"field":"color.keyword","include":["red","green"]}}}},Some(application/json))

Map(color -> red, make -> honda)

Map(color -> red, make -> honda)

Map(color -> green, make -> ford)

red,

green,

下面的avg_price是个简单的度量：

POST /cartxns/_search

{

  "aggs":{

    "colors":{

      "terms":{"field":"color.keyword"},

      "aggs":{

        "avg_price":{

          "avg":{"field":"price"}

        }

      }

    }

  }

}

...

  "aggregations" : {

    "colors" : {

      "doc_count_error_upper_bound" : ,

      "sum_other_doc_count" : ,

      "buckets" : [

        {

          "key" : "red",

          "doc_count" : ,

          "avg_price" : {

            "value" : 32500.0

          }

        },

        {

          "key" : "blue",

          "doc_count" : ,

          "avg_price" : {

            "value" : 20000.0

          }

        },

        {

          "key" : "green",

          "doc_count" : ,

          "avg_price" : {

            "value" : 21000.0

          }

        }

      ]

    }

  }

terms定义bucket。在terms下加上aggs-avg表示符合某个backet条件文件的平均定价avg_price。elastic4是如下表达的：

  val aggTermsAvg = search("cartxns").aggregations(

    termsAgg("colors","color.keyword").subAggregations(

      avgAgg("avg_price","price")

    )

  ).sourceInclude("color","make").size()

  println(aggTermsAvg.show)

  val avgResult = client.execute(aggTermsAvg).await

  avgResult.result.hits.hits.foreach(m => println(m.sourceAsMap))

  avgResult.result.aggregations.terms("colors").buckets

    .foreach(b => println(s"${b.key},${b.docCount},${b.avg("avg_price").value}"))

...

POST:/cartxns/_search?

StringEntity({"size":,"_source":{"includes":["color","make"]},"aggs":{"colors":{"terms":{"field":"color.keyword"},"aggs":{"avg_price":{"avg":{"field":"price"}}}}}},Some(application/json))

Map(color -> red, make -> honda)

Map(color -> red, make -> honda)

Map(color -> green, make -> ford)

red,,32500.0

blue,,20000.0

green,,21000.0

然后，我们可以在bucket里再增加bucket，如下：

POST /cartxns/_search

{

  "aggs":{

    "colors":{

      "terms":{"field":"color.keyword"},

      "aggs":{

        "avg_price":{"avg":{"field":"price"}},

        "makes":{"terms":{"field":"make.keyword"}}

      }

    }

  }

}

...

  "aggregations" : {

    "colors" : {

      "doc_count_error_upper_bound" : ,

      "sum_other_doc_count" : ,

      "buckets" : [

        {

          "key" : "red",

          "doc_count" : ,

          "makes" : {

            "doc_count_error_upper_bound" : ,

            "sum_other_doc_count" : ,

            "buckets" : [

              {

                "key" : "honda",

                "doc_count" :

              },

              {

                "key" : "bmw",

                "doc_count" :

              }

            ]

          },

          "avg_price" : {

            "value" : 32500.0

          }

        },

        {

          "key" : "blue",

          "doc_count" : ,

          "makes" : {

            "doc_count_error_upper_bound" : ,

            "sum_other_doc_count" : ,

            "buckets" : [

              {

                "key" : "ford",

                "doc_count" :

              },

              {

                "key" : "toyota",

                "doc_count" :

              }

            ]

          },

          "avg_price" : {

            "value" : 20000.0

          }

        },

        {

          "key" : "green",

          "doc_count" : ,

          "makes" : {

            "doc_count_error_upper_bound" : ,

            "sum_other_doc_count" : ,

            "buckets" : [

              {

                "key" : "ford",

                "doc_count" :

              },

              {

                "key" : "toyota",

                "doc_count" :

              }

            ]

          },

          "avg_price" : {

            "value" : 21000.0

          }

        }

      ]

    }

  }

elastic4示范：

  val aggTAvgT = search("cartxns").aggregations(

    termsAgg("colors","color.keyword").subAggregations(

      avgAgg("avg_price","price"),

      termsAgg("makes","make.keyword")

    )

  ).size()

  println(aggTAvgT.show)

  val avgTTResult = client.execute(aggTAvgT).await

  avgTTResult.result.hits.hits.foreach(m => println(m.sourceAsMap))

  avgTTResult.result.aggregations.terms("colors").buckets

    .foreach { cb =>

      println(s"${cb.key},${cb.docCount},${cb.avg("avg_price").value}")

      cb.terms("makes").buckets.foreach(mb => println(s"${mb.key},${mb.docCount}"))

    }

...

POST:/cartxns/_search?

StringEntity({"size":,"aggs":{"colors":{"terms":{"field":"color.keyword"},"aggs":{"avg_price":{"avg":{"field":"price"}},"makes":{"terms":{"field":"make.keyword"}}}}}},Some(application/json))

Map(price -> , color -> red, make -> honda, sold -> --)

Map(price -> , color -> red, make -> honda, sold -> --)

Map(price -> , color -> green, make -> ford, sold -> --)

red,,32500.0

honda,

bmw,

blue,,20000.0

ford,

toyota,

green,,21000.0

ford,

toyota,

最后，我们再在最内层的bucket增加min,max两个metrics：

POST /cartxns/_search

{

  "size":,

  "aggs":{

    "colors":{

      "terms":{"field":"color.keyword"},

      "aggs":{

        "avg_price":{"avg":{"field":"price"}},

        "makes":{"terms":{"field":"make.keyword"},

        "aggs":{

          "max_price":{"max":{"field":"price"}},

          "min_price":{"min":{"field":"price"}}

        }

       }

      }

    }

  }

}

...

  "aggregations" : {

    "colors" : {

      "doc_count_error_upper_bound" : ,

      "sum_other_doc_count" : ,

      "buckets" : [

        {

          "key" : "red",

          "doc_count" : ,

          "makes" : {

            "doc_count_error_upper_bound" : ,

            "sum_other_doc_count" : ,

            "buckets" : [

              {

                "key" : "honda",

                "doc_count" : ,

                "max_price" : {

                  "value" : 20000.0

                },

                "min_price" : {

                  "value" : 10000.0

                }

              },

              {

                "key" : "bmw",

                "doc_count" : ,

                "max_price" : {

                  "value" : 80000.0

                },

                "min_price" : {

                  "value" : 80000.0

                }

              }

            ]

          },

          "avg_price" : {

            "value" : 32500.0

          }

        },

        {

          "key" : "blue",

          "doc_count" : ,

          "makes" : {

            "doc_count_error_upper_bound" : ,

            "sum_other_doc_count" : ,

            "buckets" : [

              {

                "key" : "ford",

                "doc_count" : ,

                "max_price" : {

                  "value" : 25000.0

                },

                "min_price" : {

                  "value" : 25000.0

                }

              },

              {

                "key" : "toyota",

                "doc_count" : ,

                "max_price" : {

                  "value" : 15000.0

                },

                "min_price" : {

                  "value" : 15000.0

                }

              }

            ]

          },

          "avg_price" : {

            "value" : 20000.0

          }

        },

        {

          "key" : "green",

          "doc_count" : ,

          "makes" : {

            "doc_count_error_upper_bound" : ,

            "sum_other_doc_count" : ,

            "buckets" : [

              {

                "key" : "ford",

                "doc_count" : ,

                "max_price" : {

                  "value" : 30000.0

                },

                "min_price" : {

                  "value" : 30000.0

                }

              },

              {

                "key" : "toyota",

                "doc_count" : ,

                "max_price" : {

                  "value" : 12000.0

                },

                "min_price" : {

                  "value" : 12000.0

                }

              }

            ]

          },

          "avg_price" : {

            "value" : 21000.0

          }

        }

      ]

    }

  }

elastic4示范：

  val aggTAvgTMM = search("cartxns").aggregations(

    termsAgg("colors","color.keyword").subAggregations(

      avgAgg("avg_price","price"),

      termsAgg("makes","make.keyword").subAggregations(

        maxAgg("max_price","price"),

        minAgg("min_price","price")

      )

    )

  ).size()

  println(aggTAvgTMM.show)

  val avgTTMMResult = client.execute(aggTAvgTMM).await

  avgTTMMResult.result.hits.hits.foreach(m => println(m.sourceAsMap))

  avgTTMMResult.result.aggregations.terms("colors").buckets

    .foreach { cb =>

      println(s"${cb.key},${cb.docCount},${cb.avg("avg_price").value}")

      cb.terms("makes").buckets.foreach { mb =>

        println(s"${mb.key},${mb.docCount},${mb.avg("min_price").value},${mb.avg("max_price").value}")

      }

    }

...

POST:/cartxns/_search?

StringEntity({"size":,"aggs":{"colors":{"terms":{"field":"color.keyword"},"aggs":{"avg_price":{"avg":{"field":"price"}},"makes":{"terms":{"field":"make.keyword"},"aggs":{"max_price":{"max":{"field":"price"}},"min_price":{"min":{"field":"price"}}}}}}}},Some(application/json))

Map(price -> , color -> red, make -> honda, sold -> --)

Map(price -> , color -> red, make -> honda, sold -> --)

Map(price -> , color -> green, make -> ford, sold -> --)

red,,32500.0

honda,,10000.0,20000.0

bmw,,80000.0,80000.0

blue,,20000.0

ford,,25000.0,25000.0

toyota,,15000.0,15000.0

green,,21000.0

ford,,30000.0,30000.0

toyota,,12000.0,12000.0

search（12）- elastic4s-聚合=桶+度量的更多相关文章

elasticsearch聚合--桶（Buckets）和指标（Metrics）的概念
写在前面的话:读书破万卷,编码如有神--------------------------------------------------------------------主要内容包括: 聚合的两个核 ...
第六章：Django 综合篇 - 12：聚合内容 RSS/Atom
Django提供了一个高层次的聚合内容框架,让我们创建RSS/Atom变得简单,你需要做的只是编写一个简单的Python类. 一.范例要创建一个feed,只需要编写一个Feed类,然后设置一条指向F ...
010-elasticsearch5.4.3【四】-聚合操作【一】-度量聚合【metrics】-min、max、sum、avg、count
一.概述度量类型聚合主要针对的number类型的数据,需要ES做比较多的计算工作参考向导:地址 import org.elasticsearch.search.aggregations.Aggre ...
Elastic Stack 笔记（七）Elasticsearch5.6 聚合分析
博客地址:http://www.moonxy.com 一.前言 Elasticsearch 是一个分布式的全文搜索引擎,索引和搜索是 Elasticsarch 的基本功能.同时,Elasticsear ...
翻译 | Placing Search in Context The Concept Revisited
翻译 | Placing Search in Context The Concept Revisited 原文摘要 [1] Keyword-based search engines are in w ...
Hive 文件格式 & Hive操作（外部表、内部表、区、桶、视图、索引、join用法、内置操作符与函数、复合类型、用户自定义函数UDF、查询优化和权限控制）
本博文的主要内容如下: Hive文件存储格式 Hive 操作之表操作:创建外.内部表 Hive操作之表操作:表查询 Hive操作之表操作:数据加载 Hive操作之表操作:插入单表.插入多表 Hive语 ...
031 Spring Data Elasticsearch学习笔记---重点掌握第5节高级查询和第6节聚合部分
Elasticsearch提供的Java客户端有一些不太方便的地方: 很多地方需要拼接Json字符串,在java中拼接字符串有多恐怖你应该懂的需要自己把对象序列化为json存储查询到结果也需要自己 ...
ElasticSearch 2 (37) - 信息聚合系列之内存与延时
ElasticSearch 2 (37) - 信息聚合系列之内存与延时摘要控制内存使用与延时版本 elasticsearch版本: elasticsearch-2.x 内容 Fielddata ...
ElasticSearch 聚合函数
一.简单聚合桶 :简单来说就是满足特定条件的文档的集合. 指标:大多数指标是简单的数学运算(例如最小值.平均值.最大值,还有汇总),这些是通过文档的值来计算. 桶能让我们划分文档到有意义的集合, ...

随机推荐

DNA sequence HDU - 1560（IDA*，迭代加深搜索）
题目大意:有n个DNA序列,构造一个新的序列,使得这n个DNA序列都是它的子序列,然后输出最小长度. 题解:第一次接触IDA*算法,感觉~~好暴力!!思路:维护一个数组pos[i],表示第i个串该匹配 ...
A - Free DIY Tour HDU - 1224
题目大意:每一个城市都有一定的魅力值,然后有一个有向图,根据这个有向图从1到n+1所获得的魅力的最大值,并输出路径(要求只能从编号娇小的城市到编号较大的城市). 题解:很容易想到最短路+路径纪录.但是 ...
tensorflow-参数、超参数、卷积核权值共享
根据网上查询到的说法,参数就是在卷积神经网络中可以被训练的参数,比如卷积核的权值和偏移等等,而超参数是一些预先设定好并且无法改变的,比如说是卷积核的个数等. 另外还有一个最最基础的概念,就是卷积核的权 ...
xshell下使用vim的编辑一个文件Ctrl+S和Ctrl+Q
xshell下使用vim的编辑一个文件,保存的时候习惯性的按了Ctrl+S 结构悲剧了.屏幕锁死了.按其他键都没有反应,exc也不行. 经过问度娘才知道. 原来Ctrl+S在Linux里,是锁定屏幕的 ...
【Spring源码分析】预备篇
前言最新想学习一下Spring源码,开篇博客记录下学习过程,欢迎一块交流学习. 作为预备篇,主要演示搭建一个最简单的Spring项目样例,对Spring进行最基本梳理. 构建一个最简单的spring ...
.NET 4 实践 - 使用dynamic和MEF实现轻量级的AOP组件（4）
转摘 https://www.cnblogs.com/niceWk/archive/2010/07/23/1783394.html 借花献佛前面我们介绍了构成DynamicAspect绝大部分的类, ...
Java IO 流-- 文件拷贝
IO流操作套路: 1.创建源: 2.选择流: 3.操作: 4.释放资源上代码: package com.xzlf.io; import java.io.File; import java.io.Fi ...
Python操作三大主流数据库
Python 标准数据库接口为 Python DB-API,Python DB-API为开发人员提供了数据库应用编程接口. Python 数据库接口支持非常多的数据库,你可以选择适合你项目的数据库: ...
php表格--大数据处理
参考来源1:https://blog.csdn.net/tim_phper/article/details/77581071 参考来源2:https://blog.csdn.net/qq_376822 ...
ERROR 2003 (HY000): Can't connect to MySQL server on '192.168.33.10' (111) 解决方法
谷歌了一下之后,原来是在mysql的my.cnf中有下面一段代码: # Instead of skip-networking the default is now to listen only on ...

search（12）- elastic4s-聚合=桶+度量

search（12）- elastic4s-聚合=桶+度量的更多相关文章

随机推荐

热门专题