Elasticsearch学习之深入聚合分析二---案例实战

　　以一个家电卖场中的电视销售数据为背景，来对各种品牌，各种颜色的电视的销量和销售额，进行各种各样角度的分析，首先建立电视销售的索引，然后

添加几条销售记录

PUT /tvs

{

    "mappings": {

        "sales": {

            "properties": {

                "price": {

                    "type": "long"

                },

                "color": {

                    "type": "keyword"

                },

                "brand": {

                    "type": "keyword"

                },

                "sold_date": {

                    "type": "date"

                }

            }

        }

    }

}

POST /tvs/sales/_bulk

{ "index": {}}

{ "price" : , "color" : "红色", "brand" : "长虹", "sold_date" : "2016-10-28" }

{ "index": {}}

{ "price" : , "color" : "红色", "brand" : "长虹", "sold_date" : "2016-11-05" }

{ "index": {}}

{ "price" : , "color" : "绿色", "brand" : "小米", "sold_date" : "2016-05-18" }

{ "index": {}}

{ "price" : , "color" : "蓝色", "brand" : "TCL", "sold_date" : "2016-07-02" }

{ "index": {}}

{ "price" : , "color" : "绿色", "brand" : "TCL", "sold_date" : "2016-08-19" }

{ "index": {}}

{ "price" : , "color" : "红色", "brand" : "长虹", "sold_date" : "2016-11-05" }

{ "index": {}}

{ "price" : , "color" : "红色", "brand" : "三星", "sold_date" : "2017-01-01" }

{ "index": {}}

{ "price" : , "color" : "蓝色", "brand" : "小米", "sold_date" : "2017-02-12" }

建立索引及增添数据

1. 统计哪种颜色的电视销量最高

GET /tvs/sales/_search

{

    "size" : ,

    "aggs" : {

        "popular_colors" : {

            "terms" : {

              "field" : "color"

            }

        }

    }

}

size：只获取聚合结果，而不要执行聚合的原始数据
aggs：固定语法，要对一份数据执行分组聚合操作
popular_colors：就是对每个aggs，都要起一个名字，这个名字是随机的，你随便取什么都ok
terms：根据字段的值进行分组
field：根据指定的字段的值进行分组

2. 统计每种颜色电视的平均价格

GET /tvs/sales/_search

{

   "size" : ,

   "aggs": {

      "colors": {

         "terms": {

            "field": "color"

         },

         "aggs": {

            "avg_price": {

               "avg": {

                  "field": "price"

               }

            }

         }

      }

   }

}

　　按照color去分bucket，可以拿到每个color bucket中的数量，这个仅仅只是一个bucket操作，doc_count其实只是es的bucket操作默认执行的一个内置metric，除了bucket操作，分组，还要对每个bucket执行一个metric聚合统计操作，在一个aggs执行的bucket操作（terms），平级的json结构下，再加一个aggs，这个第二个aggs内部，同样取个名字，执行一个metric操作，avg，对之前的每个bucket中的数据的指定的field，price field，求一个平均值

3. 颜色加品牌多层下钻分析

　　从颜色到品牌进行下钻分析，每种颜色的平均价格，以及找到每种颜色每个品牌的平均价格，下钻的意思是，已经分了一个组了，比如说颜色的分组，然后还要继续对这个分组内的数据，再分组，比如一个颜色内，还可以分成多个不同的品牌的组，最后对每个最小粒度的分组执行聚合分析操作，这就叫做下钻分析

　　es，下钻分析，就要对bucket进行多层嵌套，多次分组按照多个维度（颜色+品牌）多层下钻分析，而且学会了每个下钻维度（颜色，颜色+品牌），都可以对每个维度分别执行一次metric聚合操作

GET /tvs/sales/_search

{

  "size": ,

  "aggs": {

    "group_by_color": {

      "terms": {

        "field": "color"

      },

      "aggs": {

        "color_avg_price": {

          "avg": {

            "field": "price"

          }

        },

        "group_by_brand": {

          "terms": {

            "field": "brand"

          },

          "aggs": {

            "brand_avg_price": {

              "avg": {

                "field": "price"

              }

            }

          }

        }

      }

    }

  }

}

其他metric，例如 count，avg

count：bucket，terms，自动就会有一个doc_count，就相当于是count
avg：avg aggs，求平均值
max：求一个bucket内，指定field值最大的那个数据
min：求一个bucket内，指定field值最小的那个数据
sum：求一个bucket内，指定field值的总和

一般来说，90%的常见的数据分析的操作，metric，无非就是count，avg，max，min，sum

GET /tvs/sales/_search

{

   "size" : ,

   "aggs": {

      "colors": {

         "terms": {

            "field": "color"

         },

         "aggs": {

            "avg_price": { "avg": { "field": "price" } },

            "min_price" : { "min": { "field": "price"} },

            "max_price" : { "max": { "field": "price"} },

            "sum_price" : { "sum": { "field": "price" } }

         }

      }

   }

}

4. histogram：类似于terms，也是进行bucket分组操作，接收一个field，按照这个field的值的各个范围区间，进行bucket分组操作

"histogram":{
"field": "price",
"interval": 2000
},

interval：2000，划分范围，0~2000，2000~4000，4000~6000，6000~8000，8000~10000，buckets

去根据price的值，比如2500，看落在哪个区间内，比如2000~4000，此时就会将这条数据放入2000~4000对应的那个bucket中

bucket划分的方法，terms，将field值相同的数据划分到一个bucket中

bucket有了之后，同样可以对每个bucket执行avg，count，sum，max，min，等各种metric操作，聚合分析

示例；按照价格区间统计销售额和电视销量

GET /tvs/sales/_search

{

   "size" : ,

   "aggs":{

      "price":{

         "histogram":{

            "field": "price",

            "interval":

         },

         "aggs":{

            "revenue": {

               "sum": {

                 "field" : "price"

               }

             }

         }

      }

   }

}

bucket，分组操作，histogram，按照某个值指定的interval，划分一个一个的bucket

date histogram，按照我们指定的某个date类型的日期field，以及日期interval，按照一定的日期间隔，去划分bucket

date interval = 1m，

2017-01-01~2017-01-31，就是一个bucket
2017-02-01~2017-02-28，就是一个bucket

然后会去扫描每个数据的date field，判断date落在哪个bucket中，就将其放入那个bucket

2017-01-05，就将其放入2017-01-01~2017-01-31，就是一个bucket

min_doc_count：即使某个日期interval，2017-01-01~2017-01-31中，一条数据都没有，那么这个区间也是要返回的，不然默认是会过滤掉这个区间的
extended_bounds，min，max：划分bucket的时候，会限定在这个起始日期，和截止日期内

GET /tvs/sales/_search

{

   "size" : ,

   "aggs": {

      "sales": {

         "date_histogram": {

            "field": "sold_date",

            "interval": "month",

            "format": "yyyy-MM-dd",

            "min_doc_count" : ,

            "extended_bounds" : {

                "min" : "2016-01-01",

                "max" : "2017-12-31"

            }

         }

      }

   }

}

示例：统计每个季度每个品牌的销售额

GET /tvs/sales/_search

{

  "size": ,

  "aggs": {

    "group_by_sold_date": {

      "date_histogram": {

        "field": "sold_date",

        "interval": "quarter",

        "format": "yyyy-MM-dd",

        "min_doc_count": ,

        "extended_bounds": {

          "min": "2016-01-01",

          "max": "2017-12-31"

        }

      },

      "aggs": {

        "group_by_brand": {

          "terms": {

            "field": "brand"

          },

          "aggs": {

            "sum_price": {

              "sum": {

                "field": "price"

              }

            }

          }

        },

        "total_sum_price": {

          "sum": {

            "field": "price"

          }

        }

      }

    }

  }

}

Elasticsearch学习之深入聚合分析二---案例实战的更多相关文章

Elasticsearch学习之深入聚合分析四---案例实战
1. 需求:比如有一个网站,记录下了每次请求的访问的耗时,需要统计tp50,tp90,tp99 tp50:50%的请求的耗时最长在多长时间tp90:90%的请求的耗时最长在多长时间tp99:99%的请 ...
Elasticsearch学习之深入聚合分析三---案例实战
1. 统计指定品牌下每个颜色的销量任何的聚合,都必须在搜索出来的结果数据中进行,搜索结果,就是聚合分析操作的scope GET /tvs/sales/_search { , "query& ...
Elasticsearch学习之深入聚合分析五---案例实战
1. fielddata核心原理 fielddata加载到内存的过程是lazy加载的,对一个analzyed field执行聚合时,才会加载,而且是field-level加载的,一个index的一个f ...
Elasticsearch学习之深入聚合分析一---基本概念
首先明白两个核心概念:bucket和metric 1. bucket:一个数据分组 city name 北京小李北京小王上海小张上海小丽上海小陈基于city划分buckets,划分 ...
ElasticStack学习（八）：ElasticSearch索引模板与聚合分析初探
一.Index Template与Dynamic Template的概念 1.Index Template:它是用来根据提前设定的Mappings和Settings,并按照一定的规则,自动匹配到新创建 ...
elasticsearch系列六：聚合分析（聚合分析简介、指标聚合、桶聚合）
一.聚合分析简介 1. ES聚合分析是什么? 聚合分析是数据库中重要的功能特性,完成对一个查询的数据集中数据的聚合计算,如:找出某字段(或计算表达式的结果)的最大值.最小值,计算和.平均值等.ES作为 ...
ElasticSearch 简单的搜索聚合分析
一. 搜索1.DSL搜索全部数据没有任何条件 GET /shop/goods/_search { "query": { "match_all": {} } } ...
Elasticsearch学习之嵌套聚合，下钻分析，聚合分析
1. 计算每个tag下的商品数量 GET /ecommerce/product/_search { "aggs": { "group_by_tags": { & ...
Java之微信支付(扫码支付模式二)案例实战
摘要:最近的一个项目中涉及到了支付业务,其中用到了微信支付和支付宝支付,在做的过程中也遇到些问题,所以现在总结梳理一下,分享给有需要的人,也为自己以后回顾留个思路. 一:微信支付接入准备工作: 首先, ...

随机推荐

每天一个linux命令：mkdir命令
linux mkdir 命令用来创建指定的名称的目录,要求创建目录的用户在当前目录中具有写权限,并且指定的目录名不能是当前目录中已有的目录. 1．命令格式: mkdir [选项] 目录... 2．命令 ...
c# 正则实践
Regex reg = new Regex(@"<img[\s]+src[\s]*=[\s]*['""](?<picPath>.*)['"&q ...
int[,] 和 int[][] 有什么区别
int[,] 是二维数组,它就是传统意义上 n x m 的表,和 C++ 里的 int[][] 是一个意思. int[][] 是交错数组,与 C++ 里的 int[][] 不同.它其实是一个 int[ ...
The mysql extension is deprecated and will be removed in the future: use mysqli or PDO instead [duplicate]
From: http://stackoverflow.com/questions/13944956/the-mysql-extension-is-deprecated-and-will-be-remo ...
7款HTML5精美应用教程让你立即爱上HTML5
你喜欢HTML5吗?我想下面的这7个HTML5应用一定会让你爱上HTML5的,不信就一起来看看吧. 1.HTML5/jQuery雷达动画图表图表配置十分简单之前我们介绍过不少形形色色的HTML5图 ...
CentOS 65 安装vmware tools 杂记
CentOS 65中安装vmware tools时出现如下错误, centos vmware tools install failure ,no default label for /tmp/vmwa ...
XToDo未完成内容标记管理器
下载地址:https://github.com/trawor/XToDo 跟VVDocumenter规范注释生成器的安装方式一样: 下载开源工程在Xcode重新编译运行会自动安装此插件,重启Xcode ...
UNIX环境编程学习笔记（1）：——出错处理errno
lienhua342014 年 8 月 24 日 1. errno变量文件 <errno.h> 中定义了符号 errno 以及可以赋予它的各种常量,这些常量都是以字符 E 开头.例如,若 ...
Lua中用Split函数分割字符串
function Split(szFullString, szSeparator) local nFindStartIndex = local nSplitIndex = local nSplitAr ...
对转换公式为LaTeX代码要注意什么
mathtype是一款专业的数学公式编辑工具,理科生专用的工具.mathtype公式编辑器能够帮助用户在各种文档中插入复杂的数学公式和符号.可以轻松的将数学公式转换成LaTex代码,但是转换LaTeX ...

Elasticsearch学习之深入聚合分析二---案例实战

Elasticsearch学习之深入聚合分析二---案例实战的更多相关文章

随机推荐

热门专题