aggregation 详解3(bucket aggregation)
概述
桶分聚合不进行权值的计算,他们对文档根据聚合请求中提供的判断条件(比如:{"from":0, "to":100})来进行分组(桶分)。
桶分聚合还会额外返回每一个桶内文档的个数。
桶分聚合可以包含子聚合——sub-aggregations(权值聚合不能包含子聚合,可以作为子聚合),子聚合操作将会应用到由父(parent)聚合产生的每一个桶上。
桶分聚合根据聚合条件,可以只定义输出一个桶;也可以输出多个;还可以在根据聚合条件动态确定桶个数(比如:terms aggregation)。
Histogram Aggregation(multi-bucket)
直方图聚合——基于文档中的某个【数值类型】字段,通过计算来动态的分桶。
一个文档属于某个桶,计算过程大致如下:
rem = value % interval
if (rem < ) {
rem += interval
}
bucket_key = value - rem
配置参数
- field:字段,必须为数值类型
- interval:分桶间距
- min_doc_count:最少文档数桶过滤,只有不少于这么多文档的桶才会返回
- extended_bounds:范围扩展
- order:对桶排序,如果 histogram 聚合有一个权值聚合类型的"直接"子聚合,那么排序可以使用子聚合中的结果
- offset:桶边界位移,默认从0开始
- keyed:hash结构返回,默认以数组形式返回每一个桶
- missing:配置缺省默认值
{
"aggs" : {
"prices" : {
"histogram" : {
"field" : "price",
"interval" : ,
"min_doc_count" : ,
"extended_bounds" : {
"min" : ,
"max" :
},
"order" : { "_count" : "desc" },
"keyed":true,
"missing":
}
}
}
}
Data Histogram Aggregation(multi-bucket)
日期直方图聚合——基于日期类型,以【日期间隔】来桶分聚合。
可用的时间间隔类型为:year、quarter、month、week、day、hour、minute、second,其中,除了year、quarter 和 month,其余可用小数形式。
配置参数
- field:
- interval:
- format:定义日期的格式,配置后会返回一个 key_as_string 的字符串类型日期(默认只有key)
- time_zone:定义时区,用作时间值的调整
- offset:
- missing:
{
"aggs" : {
"articles_over_time" : {
"date_histogram" : {
"field" : "date",
"interval" : "month",
"format" : "yyyy-MM-dd",
"time_zone": "+08:00"
}
}
}
}
Range Aggregation(multi-bucket)
范围聚合——基于某个值(可以是 field 或 script),以【字段范围】来桶分聚合。
范围聚合包括 from 值,不包括 to 值(区间前闭后开)。
配置参数
- ranges:配置区间,数组,每一个元素是一个区间。例如:[{from:0}, {from:50, to:100}, {to:200}]
- keyed:以一个关联的唯一字符串作为键,以 HASH 形式返回,而不是默认的数组
- script:利用 script 执行结果替代普通的 field 值进行聚合。script可以用file给出,还可以对其它 field 进行求值计算。
{
"aggs" : {
"price_ranges" : {
"range" : {
"field" : "price",
"ranges" : [ //包含 3 个桶
{ "to" : },
{ "from" : , "to" : },
{ "from" : }
],
"keyed" : true
}
}
}
}
Date Range Aggregation(multi-bucket)
日期范围聚合——基于日期类型的值,以【日期范围】来桶分聚合。
日期范围可以用各种 Date Math 表达式。
同样的,包括 from 的值,不包括 to 的值。
配置参数
- format:定义日期格式,配置后会返回一个 [to/from]_as_string 的字符串类型日期,默认是 to/from 的数值表示
{
"aggs": {
"range": {
"date_range": {
"field": "date",
"format": "MM-yyy",
"ranges": [ //包含 3 个桶
{ "to": "now-10M/M" },
{ "from": "now-10M/M" },
{"from":"1970-1-1", "to":"2000-1-1"}
]
}
}
}
}
Terms Aggregation(multi-bucket)
词元聚合——基于某个field,该 field 内的每一个【唯一词元】为一个桶,并计算每个桶内文档个数。
默认返回顺序是按照文档个数多少排序。
当不返回所有 buckets 的情况,文档个数可能不准确。
配置参数
- size:size用来定义需要返回多个 buckets(防止太多),默认会全部返回。(注意,如果只返回部分buckets,统计的文档个数不一定准确(每个分片各自的top size个)。size 越大,count 会越精确。)
- order:排序方式
- min_doc_count:只返回文档个数不小于该值的 buckets
- script:用基本来生成词元
- include:包含过滤
- exclude:排除过滤
- execution_hint:
- collect_mode:
- missing:
{
"aggs" : {
"genders" : {
"terms" : {
"field" : "gender",
"size" : ,
"order" : { "_count" : "asc" },
"min_doc_count": ,
"include" : ".*sport.*",
"exclude" : "water_.*",
"missing": "N/A"
}
}
}
}
Filters Aggregation(multi-bucket)
多过滤聚合——基于多个过滤条件,来对当前文档进行【过滤】的聚合,每个过滤都包含所有满足它的文档(多个bucket中可能重复)。
配置参数
- filters: 配置过滤条件,支持 HASH 或 数组格式
- other_bucket: 是否计算不满足任何匹配条件的文档
- other_bucket_key: 作为不匹配所有过滤条件的文档的 bucket 名称
{
"aggs" : {
"messages" : {
"filters" : {
"other_bucket_key": "other_messages", //不在过滤条件范围内的文档都归属于 other_messages 桶
"filters" : { //过滤条件
"errors" : { "term" : { "body" : "error" }},
"warnings" : { "term" : { "body" : "warning" }}
}
},
"aggs" : {
"monthly" : {
"histogram" : {
"field" : "timestamp",
"interval" : "1M"
}
}
}
}
}
}
Filter Aggregation(single-bucket)
过滤聚合——基于一个条件,来对当前的文档进行过滤的聚合。
{
"aggs" : {
"red_products" : {
"filter" : { "term": { "color": "red" } },
"aggs" : {
"avg_price" : { "avg" : { "field" : "price" } }
}
}
}
}
IPv4 Range Aggregation(multi-bucket)
IP4聚合——基于一个 IPv4 字段,对文档进行【IPv4范围】的桶分聚合。
和 Range Aggregation 类似,只是应用字段必须是 IPv4 数据类型。
{
"aggs" : {
"ip_ranges" : {
"ip_range" : {
"field" : "ip",
"ranges" : [ //包含 3 个桶,各个桶之间可能有文档重复
{ "to" : "10.0.0.5" },
{ "from" : "10.0.0.5" },
{ "from":"1.1.1.1", "to" : "10.0.0.5" },
]
}
}
}
}
Nested Aggregation(single-bucket)
嵌套类型聚合——基于嵌套(nested)数据类型,把该【嵌套类型的信息】聚合到单个桶里,然后就可以对嵌套类型做进一步的聚合操作。
// resellers 是一个嵌套类型
{
...
"product" : {
"properties" : {
"resellers" : {
"type" : "nested",
"properties" : {
"name" : { "type" : "string" },
"price" : { "type" : "double" }
}
}
}
}
}
// 对 nested 对象里面的信息做其它聚合操作
{
"query" : {
"match" : { "name" : "led tv" }
},
"aggs" : {
"resellers" : {
"nested" : { //"嵌套类型聚合"把所有嵌套信息都包含在单一的桶里,以供进一步处理
"path" : "resellers"
},
"aggs" : {
"min_price" : { "min" : { "field" : "resellers.price" } } //对嵌套类型聚合输出的桶做进一步处理,这里是计算其 price 的 average
}
}
}
}
aggregation 详解3(bucket aggregation)的更多相关文章
- aggregation 详解4(pipeline aggregations)
概述 管道聚合处理的对象是其它聚合的输出(桶或者桶的某些权值),而不是直接针对文档. 管道聚合的作用是为输出增加一些有用信息. 管道聚合大致分为两类: parent 此类聚合的"输入&quo ...
- aggregation 详解2(metrics aggregations)
概述 权值聚合类型从需要聚合的文档中取一个值(value)来计算文档的相应权值(比如该值在这些文档中的max.sum等). 用于计算的值(value)可以是文档的字段(field),也可以是脚本(sc ...
- 【转】UML类图与类的关系详解
UML类图与类的关系详解 2011-04-21 来源:网络 在画类图的时候,理清类和类之间的关系是重点.类的关系有泛化(Generalization).实现(Realization).依赖(D ...
- Maven-pom.xml详解
(看的比较累,可以直接看最后面有针对整个pom.xml的注解) pom的作用 pom作为项目对象模型.通过xml表示maven项目,使用pom.xml来实现.主要描述了项目:包括配置文件:开发者需要遵 ...
- 【转】maven核心,pom.xml详解
感谢如下博主: http://www.cnblogs.com/qq78292959/p/3711501.html maven核心,pom.xml详解 什么是pom? pom作为项目对象模型.通过 ...
- UML类图与类的关系详解
摘自:http://www.uml.org.cn/oobject/201104212.asp UML类图与类的关系详解 2011-04-21 来源:网络 在画类图的时候,理清类和类之间的关系是重点.类 ...
- mapping 详解2(field datatypes)
基本类型 1. 字符串 字符串类型被分为两种情况:full-text 和 keywords. full-text 表示字段内容会被分析,而 keywords 表示字段值只能作为一个精确值查询. 参数: ...
- 计算机网路中CDP,LLDP,STP的详解
CDP,LLDP,STP知识详解 (1) CDP CDP(Cisco Discovery Protoco:Cisco发现协议)是Cisco专有的用来发现邻接点的协议 ,所有的Cisco产品都支持CDP ...
- JAVA类与类之间的全部关系简述+代码详解
本文转自: https://blog.csdn.net/wq6ylg08/article/details/81092056类和类之间关系包括了 is a,has a, use a三种关系(1)is a ...
随机推荐
- HDU 3567 Eight II BFS预处理
题意:就是八数码问题,给你开始的串和结束的串,问你从开始到结束的最短且最小的变换序列是什么 分析:我们可以预处理打表,这里的这个题可以和HDU1430魔板那个题采取一样的做法 预处理打表,因为八数码问 ...
- e2e 自动化集成测试 环境搭建 Node.js Selenium WebDriverIO Mocha Node-Inspector
Node.js已经出来了许多年载,至今才开始接触.周未在家闲来无事,一时心血来潮,Google了大量的文章,经过实验,终于可以把整个环境给搭起来, 废话不多话,请看步骤. 特别注意, 本文章是针对Wi ...
- 2015长春 HDU 5531 Rebuild
题意:n个顶点组成的多边形能否形成正多边形? #include <cstdio> #include <cstring> #include <cmath> #incl ...
- HW6.6
public class Solution { public static void main(String[] args) { int[] prime = new int[50]; prime[0] ...
- Poj2002 Squares
题意描述:有一堆平面散点集,任取四个点,求能组成正方形的不同组合方式有多少.相同的四个点,不同顺序构成的正方形视为同一正方形. 思路变迁: 1.最简单的方法,直接暴力搜索,即依次取四个顶点,根据其坐标 ...
- 重新学习struts
这就是所谓的一边工作一边学习. 今天准备把给公司写个管理页面,按照之前的路数,写起来应该挺快,但是不太规范.也就沉下心来学习一下了. 第一个学习的是,之前,在学校,听师兄说过,对页面编码可用inter ...
- Android问题-selection contains a component,button7,introduced in an ancestor and cannot be deleted.
问题现象: 在开发Android时增加的控件想删除,可是删除时提示“Android问题-selection contains a component,button7,introduced in an ...
- weblogic11g 安装——linux 无图形界面
weblogic11g 安装——linux下无weblogic安装图形界面 注意:此次安装,没做server.ip .系统规划 目的:学习weblogic11g 在linux下 无图形安装的过程 j ...
- DONET三层架构开发初步
.NET三层架构开发初步 今天咱们来谈下三层架构.说到三层架构,搞过点程序的可能都知道三层架构的概念.但是对三层的精髓可能不是很了解. 首先说下自己对三层的理解,就是使用三个(多个)项目结合起来开发出 ...
- Oracle 监听器无法启动(TNS-12555,TNS-12560,TNS-00525)
启动监听器无法打开,报错! [oracle@localhost ~]$ lsnrctl start LSNRCTL for Linux: Version 11.2.0.1.0 - Production ...