aggregation 详解3（bucket aggregation）

概述

桶分聚合不进行权值的计算，他们对文档根据聚合请求中提供的判断条件（比如：{"from":0, "to":100}）来进行分组（桶分）。

桶分聚合还会额外返回每一个桶内文档的个数。

桶分聚合可以包含子聚合——sub-aggregations（权值聚合不能包含子聚合，可以作为子聚合），子聚合操作将会应用到由父（parent）聚合产生的每一个桶上。

桶分聚合根据聚合条件，可以只定义输出一个桶；也可以输出多个；还可以在根据聚合条件动态确定桶个数（比如：terms aggregation）。

Histogram Aggregation(multi-bucket)

直方图聚合——基于文档中的某个【数值类型】字段，通过计算来动态的分桶。

一个文档属于某个桶，计算过程大致如下：

rem = value % interval

if (rem < ) {

    rem += interval

}

bucket_key = value - rem

配置参数

field：字段，必须为数值类型
interval：分桶间距
min_doc_count：最少文档数桶过滤，只有不少于这么多文档的桶才会返回
extended_bounds：范围扩展
order：对桶排序，如果 histogram 聚合有一个权值聚合类型的"直接"子聚合，那么排序可以使用子聚合中的结果
offset：桶边界位移，默认从0开始
keyed：hash结构返回，默认以数组形式返回每一个桶
missing：配置缺省默认值

{

    "aggs" : {

        "prices" : {

            "histogram" : {

                "field" : "price",

                "interval" : ,

                "min_doc_count" : ,

                "extended_bounds" : {

                    "min" : ,

                    "max" :

                },

                "order" : { "_count" : "desc" },

                "keyed":true,

                "missing":

            }

        }

    }

}

Data Histogram Aggregation(multi-bucket)

日期直方图聚合——基于日期类型，以【日期间隔】来桶分聚合。

可用的时间间隔类型为：year、quarter、month、week、day、hour、minute、second，其中，除了year、quarter 和 month，其余可用小数形式。

配置参数

field：
interval：
format：定义日期的格式，配置后会返回一个 key_as_string 的字符串类型日期（默认只有key）
time_zone：定义时区，用作时间值的调整
offset：
missing：

{

    "aggs" : {

        "articles_over_time" : {

            "date_histogram" : {

                "field" : "date",

                "interval" : "month",

                "format" : "yyyy-MM-dd",

                "time_zone": "+08:00"

            }

        }

    }

}

Range Aggregation(multi-bucket)

范围聚合——基于某个值（可以是 field 或 script），以【字段范围】来桶分聚合。

范围聚合包括 from 值，不包括 to 值（区间前闭后开）。

配置参数

ranges：配置区间，数组，每一个元素是一个区间。例如：[{from:0}, {from:50, to:100}, {to:200}]
keyed：以一个关联的唯一字符串作为键，以 HASH 形式返回，而不是默认的数组
script：利用 script 执行结果替代普通的 field 值进行聚合。script可以用file给出，还可以对其它 field 进行求值计算。

{

    "aggs" : {

        "price_ranges" : {

            "range" : {

                "field" : "price",

                "ranges" : [                       //包含 3 个桶

                    { "to" :  },

                    { "from" : , "to" :  },

                    { "from" :  }

                ],

                "keyed" : true

            }

        }

    }

}

Date Range Aggregation(multi-bucket)

日期范围聚合——基于日期类型的值，以【日期范围】来桶分聚合。

日期范围可以用各种 Date Math 表达式。

同样的，包括 from 的值，不包括 to 的值。

配置参数

format：定义日期格式，配置后会返回一个 [to/from]_as_string 的字符串类型日期，默认是 to/from 的数值表示

{

    "aggs": {

        "range": {

            "date_range": {

                "field": "date",

                "format": "MM-yyy",

                "ranges": [                            //包含 3 个桶

                    { "to": "now-10M/M" },

                    { "from": "now-10M/M" },

                    {"from":"1970-1-1", "to":"2000-1-1"}

                ]

            }

        }

    }

}

Terms Aggregation(multi-bucket)

词元聚合——基于某个field，该 field 内的每一个【唯一词元】为一个桶，并计算每个桶内文档个数。

默认返回顺序是按照文档个数多少排序。

当不返回所有 buckets 的情况，文档个数可能不准确。

配置参数

size：size用来定义需要返回多个 buckets（防止太多），默认会全部返回。（注意，如果只返回部分buckets，统计的文档个数不一定准确（每个分片各自的top size个）。size 越大，count 会越精确。）
order：排序方式
min_doc_count：只返回文档个数不小于该值的 buckets
script：用基本来生成词元
include：包含过滤
exclude：排除过滤
execution_hint：
collect_mode：
missing：

{

    "aggs" : {

        "genders" : {

            "terms" : {

              "field" : "gender",

              "size" : ,

              "order" : { "_count" : "asc" },

              "min_doc_count": ,

              "include" : ".*sport.*",

              "exclude" : "water_.*",

              "missing": "N/A"

            }

        }

    }

}

Filters Aggregation(multi-bucket)

多过滤聚合——基于多个过滤条件，来对当前文档进行【过滤】的聚合，每个过滤都包含所有满足它的文档（多个bucket中可能重复）。

配置参数

filters：配置过滤条件，支持 HASH 或数组格式
other_bucket：是否计算不满足任何匹配条件的文档
other_bucket_key：作为不匹配所有过滤条件的文档的 bucket 名称

{

  "aggs" : {

    "messages" : {

      "filters" : {

        "other_bucket_key": "other_messages",                //不在过滤条件范围内的文档都归属于 other_messages 桶

        "filters" : {                                        //过滤条件

          "errors" :   { "term" : { "body" : "error"   }},

          "warnings" : { "term" : { "body" : "warning" }}

        }

      },

      "aggs" : {

        "monthly" : {

          "histogram" : {

            "field" : "timestamp",

            "interval" : "1M"

          }

        }

      }

    }

  }

}

Filter Aggregation(single-bucket)

过滤聚合——基于一个条件，来对当前的文档进行过滤的聚合。

{

    "aggs" : {

        "red_products" : {

            "filter" : { "term": { "color": "red" } },

            "aggs" : {

                "avg_price" : { "avg" : { "field" : "price" } }

            }

        }

    }

}

IPv4 Range Aggregation(multi-bucket)

IP4聚合——基于一个 IPv4 字段，对文档进行【IPv4范围】的桶分聚合。

和 Range Aggregation 类似，只是应用字段必须是 IPv4 数据类型。

{

    "aggs" : {

        "ip_ranges" : {

            "ip_range" : {

                "field" : "ip",

                "ranges" : [                                //包含 3 个桶，各个桶之间可能有文档重复

                    { "to" : "10.0.0.5" },

                    { "from" : "10.0.0.5" },

                    { "from":"1.1.1.1", "to" : "10.0.0.5" },

                ]

            }

        }

    }

}

Nested Aggregation(single-bucket)

嵌套类型聚合——基于嵌套（nested）数据类型，把该【嵌套类型的信息】聚合到单个桶里，然后就可以对嵌套类型做进一步的聚合操作。

// resellers 是一个嵌套类型

{

    ...

    "product" : {

        "properties" : {

            "resellers" : {

                "type" : "nested",

                "properties" : {

                    "name" : { "type" : "string" },

                    "price" : { "type" : "double" }

                }

            }

        }

    }

}

// 对 nested 对象里面的信息做其它聚合操作

{

    "query" : {

        "match" : { "name" : "led tv" }

    },

    "aggs" : {

        "resellers" : {

            "nested" : {                           //"嵌套类型聚合"把所有嵌套信息都包含在单一的桶里，以供进一步处理

                "path" : "resellers"

            },

            "aggs" : {

                "min_price" : { "min" : { "field" : "resellers.price" } }   //对嵌套类型聚合输出的桶做进一步处理，这里是计算其 price 的 average

            }

        }

    }

}