ElasticSearch 2 (28) - 信息聚合系列之高层概念
ElasticSearch 2 (28) - 信息聚合系列之高层概念
摘要
和查询表达式(query DSL)一样,聚合也有一种可编辑的语法:可以根据我们的需要混合以及匹配使用独立的功能单元。这也就是说我们只要学习很少的基本概念,就能将它们进行无限组合,从而实现不同的功能。
要掌握聚合,只需要理解下面两个主要概念:
桶(Buckets)
满足某个条件的文档集合
度量(Metrics)
对于某个桶的文档计算出的统计信息
就这么多!每个聚合不过是一个或多个桶以及零个或多个度量的组合。粗暴的翻译成 SQL 语句:
SELECT COUNT(color) #1
FROM table
GROUP BY color #2
#1 COUNT(color) 与度量等价。
#2 GROUP BY color 与桶等价。
桶从概念上与 SQL 里面的分组结果类似,而度量与 COUNT()、SUM()、 MAX() 等类似。
让我们深入分析这两个概念看看它们到底是什么。
版本
elasticsearch版本: elasticsearch-2.x
内容
桶(Buckets)
简单的说桶就是满足某个条件的文档的集合:
- 一个员工要么属于桶 男(male) 要么属于桶 女(female) 。
- 城市 Albany 属于桶 纽约州(New York)
- 日期 2014-10-28 属于桶 十月(October) 。
当聚合执行的时候,会计算每个文档的数值来判断它们是否满足一个桶的条件。如果满足,文档则会被置入这个桶然后聚合会继续执行。
桶也可以与其他桶嵌套使用,为我们提供一个层级化或条件化的分割策略。例如,辛辛那提(Cincinnati)会被置入俄亥俄州(Ohio state)这个桶,而整个俄亥俄(Ohio)桶会被置入美国(USA)这个桶。
Elasticsearch 有各种各样的桶划分方式,它允许我们以不同方式对文档进行分割(按小时、最受欢迎词、年龄段、地理位置及其他)但根本上说它们都遵从一个原则:按条件分割文档。
度量(Metrics)
桶让我们可以将文档分割成有用的子集,但我们最终想要的是基于每个桶内所有文档计算的度量结果。装桶只是我们达到目的的手段:它为我们提供了能够对文档进行分组,并且计算它们有趣度量信息的一种方式。
多数度量只是简单的数学操作(例如:求最小值、求平均值、求最大值以及求和),它们使用文档里的值进行计算。在实际中,我们可以利用度量功能计算例如平均薪水、最高售价以及 95% 的查询时延。
两者联合(Combining the Two)
聚合是由桶和度量组成的。一个聚合可能有一个桶,或一个度量,或者每个都有。它甚至可以有多个桶嵌套在其他桶之内。例如,我们可以将文档按国家分割到不同桶,然后计算每个国家的平均薪水(度量)。
因为桶是可以嵌套的,我们可以衍生出更加复杂的聚合:
- 按国家(桶)分割文档。
- 然后按性别(桶)分割每个国家的文档。
- 然后按年龄段(桶)分割每种性别的文档。
- 最后,计算每个年龄段的平均薪水(度量)。
这样就能得到按 <country, gender, age> (国家、性别、年龄)分组的平均薪水。所有的信息只需一个请求、一次数据传递就能得到。
参考
elastic.co: High-Level Concepts
ElasticSearch 2 (28) - 信息聚合系列之高层概念的更多相关文章
- ElasticSearch 2 (36) - 信息聚合系列之显著项
ElasticSearch 2 (36) - 信息聚合系列之显著项 摘要 significant_terms(SigTerms)聚合与其他聚合都不相同.目前为止我们看到的所有聚合在本质上都是简单的数学 ...
- ElasticSearch 2 (37) - 信息聚合系列之内存与延时
ElasticSearch 2 (37) - 信息聚合系列之内存与延时 摘要 控制内存使用与延时 版本 elasticsearch版本: elasticsearch-2.x 内容 Fielddata ...
- ElasticSearch 2 (38) - 信息聚合系列之结束与思考
ElasticSearch 2 (38) - 信息聚合系列之结束与思考 摘要 版本 elasticsearch版本: elasticsearch-2.x 内容 本小节涵盖了许多基本理论以及很多深入的技 ...
- ElasticSearch 2 (35) - 信息聚合系列之近似聚合
ElasticSearch 2 (35) - 信息聚合系列之近似聚合 摘要 如果所有的数据都在一台机器上,那么生活会容易许多,CS201 课商教的经典算法就足够应付这些问题.但如果所有的数据都在一台机 ...
- ElasticSearch 2 (34) - 信息聚合系列之多值排序
ElasticSearch 2 (34) - 信息聚合系列之多值排序 摘要 多值桶(terms.histogram 和 date_histogram)动态生成很多桶,Elasticsearch 是如何 ...
- ElasticSearch 2 (33) - 信息聚合系列之聚合过滤
ElasticSearch 2 (33) - 信息聚合系列之聚合过滤 摘要 聚合范围限定还有一个自然的扩展就是过滤.因为聚合是在查询结果范围内操作的,任何可以适用于查询的过滤器也可以应用在聚合上. 版 ...
- ElasticSearch 2 (32) - 信息聚合系列之范围限定
ElasticSearch 2 (32) - 信息聚合系列之范围限定 摘要 到目前为止我们看到的所有聚合的例子都省略了搜索请求,完整的请求就是聚合本身. 聚合与搜索请求同时执行,但是我们需要理解一个新 ...
- ElasticSearch 2 (31) - 信息聚合系列之时间处理
ElasticSearch 2 (31) - 信息聚合系列之时间处理 摘要 如果说搜索是 Elasticsearch 里最受欢迎的功能,那么按时间创建直方图一定排在第二位.为什么需要使用时间直方图? ...
- ElasticSearch 2 (30) - 信息聚合系列之条形图
ElasticSearch 2 (30) - 信息聚合系列之条形图 摘要 版本 elasticsearch版本: elasticsearch-2.x 内容 聚合还有一个令人激动的特性就是能够十分容易地 ...
随机推荐
- Volley源码分析(五)Volley源码总结篇
volley关键的代码这里已经分析完了,下面梳理一下完整的Volley流程 Volley的使用从构造Request对象开始,Volley默认提供了四种request的实现,StringRequest, ...
- 解决The SDK platform-tools version ((23)) is too old to check APIs compiled with API 23
用2.0的Android Studio bate版 打开项目,在包名的地方会出现一条红线,但是似乎不影响代码的正确性. 看着好不爽啊,我倒是还没运行就找办法解决掉了.就是说是否影响程序正常运行我是不 ...
- [转]在C++中容易出现的#error No Target Architecture
项目环境:win 7 64位,编译环境:VS2013 最近在写C++的项目,发现了自己很多不会的地方,这也使得我在C++中的成长变得比较快,下面我就说说我自己在写项目是遇到的一些问题,希望可以帮到一些 ...
- OpenCV——staturate_cast、掩模操作
saturate_cast<>()模板函数,用于溢出保护 //大致的原理如下 ) data=; elseif(data>) data=; 掩模操作:https://blog.csdn ...
- 编程使用缓冲流读取试题文件,test6_5.txt 内容如下所示。 每次显示试题文件中的一道题目,读取到字符“*”时暂停读取, 等待用户从键盘输入答案。用户做完全部题目后,程序给出用户的得分。
test6_5.txt内容如下: (1)面向对象程序设计中,把对象的属性和行为组织在同一个模块内的机制叫做( ). A.封装象 B.继承 C.抽象 D.多态 ******************** ...
- day 21 今日学习内容
今日没有学习新的内容,可能今天就是对于前一段时间学习的总结,今天做了一个相对之前作业更加完善的ATM+购物车,在今天的学习里,我对于编程有了新的见解,编程并非一味的for..if...for...更多 ...
- CSS之Header--我的头部我做主
<div class='header'> <div class="header-left"> <span class='iconfont back-i ...
- python 回溯法 子集树模板 系列 —— 13、最佳作业调度问题
问题 给定 n 个作业,每一个作业都有两项子任务需要分别在两台机器上完成.每一个作业必须先由机器1 处理,然后由机器2处理. 试设计一个算法找出完成这n个任务的最佳调度,使其机器2完成各作业时间之和达 ...
- Hadoop开发第6期---HDFS的shell操作
一.HDFS的shell命令简介 我们都知道HDFS 是存取数据的分布式文件系统,那么对HDFS 的操作,就是文件系统的基本操作,比如文件的创建.修改.删除.修改权限等,文件夹的创建.删除.重命名等. ...
- P3426 [POI2005]SZA-Template
P3426 [POI2005]SZA-Template 链接 分析: 首先T一定是S的一个前缀,也是一个后缀. 判断一个前缀s[1...i]是不是满足条件,那么求出s[1...i]在s中出现的所有位置 ...