Elasticsearch学习之深入聚合分析二---案例实战

　　以一个家电卖场中的电视销售数据为背景，来对各种品牌，各种颜色的电视的销量和销售额，进行各种各样角度的分析，首先建立电视销售的索引，然后

添加几条销售记录

PUT /tvs

{

    "mappings": {

        "sales": {

            "properties": {

                "price": {

                    "type": "long"

                },

                "color": {

                    "type": "keyword"

                },

                "brand": {

                    "type": "keyword"

                },

                "sold_date": {

                    "type": "date"

                }

            }

        }

    }

}

POST /tvs/sales/_bulk

{ "index": {}}

{ "price" : , "color" : "红色", "brand" : "长虹", "sold_date" : "2016-10-28" }

{ "index": {}}

{ "price" : , "color" : "红色", "brand" : "长虹", "sold_date" : "2016-11-05" }

{ "index": {}}

{ "price" : , "color" : "绿色", "brand" : "小米", "sold_date" : "2016-05-18" }

{ "index": {}}

{ "price" : , "color" : "蓝色", "brand" : "TCL", "sold_date" : "2016-07-02" }

{ "index": {}}

{ "price" : , "color" : "绿色", "brand" : "TCL", "sold_date" : "2016-08-19" }

{ "index": {}}

{ "price" : , "color" : "红色", "brand" : "长虹", "sold_date" : "2016-11-05" }

{ "index": {}}

{ "price" : , "color" : "红色", "brand" : "三星", "sold_date" : "2017-01-01" }

{ "index": {}}

{ "price" : , "color" : "蓝色", "brand" : "小米", "sold_date" : "2017-02-12" }

建立索引及增添数据

1. 统计哪种颜色的电视销量最高

GET /tvs/sales/_search

{

    "size" : ,

    "aggs" : {

        "popular_colors" : {

            "terms" : {

              "field" : "color"

            }

        }

    }

}

size：只获取聚合结果，而不要执行聚合的原始数据
aggs：固定语法，要对一份数据执行分组聚合操作
popular_colors：就是对每个aggs，都要起一个名字，这个名字是随机的，你随便取什么都ok
terms：根据字段的值进行分组
field：根据指定的字段的值进行分组

2. 统计每种颜色电视的平均价格

GET /tvs/sales/_search

{

   "size" : ,

   "aggs": {

      "colors": {

         "terms": {

            "field": "color"

         },

         "aggs": {

            "avg_price": {

               "avg": {

                  "field": "price"

               }

            }

         }

      }

   }

}

　　按照color去分bucket，可以拿到每个color bucket中的数量，这个仅仅只是一个bucket操作，doc_count其实只是es的bucket操作默认执行的一个内置metric，除了bucket操作，分组，还要对每个bucket执行一个metric聚合统计操作，在一个aggs执行的bucket操作（terms），平级的json结构下，再加一个aggs，这个第二个aggs内部，同样取个名字，执行一个metric操作，avg，对之前的每个bucket中的数据的指定的field，price field，求一个平均值

3. 颜色加品牌多层下钻分析

　　从颜色到品牌进行下钻分析，每种颜色的平均价格，以及找到每种颜色每个品牌的平均价格，下钻的意思是，已经分了一个组了，比如说颜色的分组，然后还要继续对这个分组内的数据，再分组，比如一个颜色内，还可以分成多个不同的品牌的组，最后对每个最小粒度的分组执行聚合分析操作，这就叫做下钻分析

　　es，下钻分析，就要对bucket进行多层嵌套，多次分组按照多个维度（颜色+品牌）多层下钻分析，而且学会了每个下钻维度（颜色，颜色+品牌），都可以对每个维度分别执行一次metric聚合操作

GET /tvs/sales/_search

{

  "size": ,

  "aggs": {

    "group_by_color": {

      "terms": {

        "field": "color"

      },

      "aggs": {

        "color_avg_price": {

          "avg": {

            "field": "price"

          }

        },

        "group_by_brand": {

          "terms": {

            "field": "brand"

          },

          "aggs": {

            "brand_avg_price": {

              "avg": {

                "field": "price"

              }

            }

          }

        }

      }

    }

  }

}

其他metric，例如 count，avg

count：bucket，terms，自动就会有一个doc_count，就相当于是count
avg：avg aggs，求平均值
max：求一个bucket内，指定field值最大的那个数据
min：求一个bucket内，指定field值最小的那个数据
sum：求一个bucket内，指定field值的总和

一般来说，90%的常见的数据分析的操作，metric，无非就是count，avg，max，min，sum

GET /tvs/sales/_search

{

   "size" : ,

   "aggs": {

      "colors": {

         "terms": {

            "field": "color"

         },

         "aggs": {

            "avg_price": { "avg": { "field": "price" } },

            "min_price" : { "min": { "field": "price"} },

            "max_price" : { "max": { "field": "price"} },

            "sum_price" : { "sum": { "field": "price" } }

         }

      }

   }

}

4. histogram：类似于terms，也是进行bucket分组操作，接收一个field，按照这个field的值的各个范围区间，进行bucket分组操作

"histogram":{
"field": "price",
"interval": 2000
},

interval：2000，划分范围，0~2000，2000~4000，4000~6000，6000~8000，8000~10000，buckets

去根据price的值，比如2500，看落在哪个区间内，比如2000~4000，此时就会将这条数据放入2000~4000对应的那个bucket中

bucket划分的方法，terms，将field值相同的数据划分到一个bucket中

bucket有了之后，同样可以对每个bucket执行avg，count，sum，max，min，等各种metric操作，聚合分析

示例；按照价格区间统计销售额和电视销量

GET /tvs/sales/_search

{

   "size" : ,

   "aggs":{

      "price":{

         "histogram":{

            "field": "price",

            "interval":

         },

         "aggs":{

            "revenue": {

               "sum": {

                 "field" : "price"

               }

             }

         }

      }

   }

}

bucket，分组操作，histogram，按照某个值指定的interval，划分一个一个的bucket

date histogram，按照我们指定的某个date类型的日期field，以及日期interval，按照一定的日期间隔，去划分bucket

date interval = 1m，

2017-01-01~2017-01-31，就是一个bucket
2017-02-01~2017-02-28，就是一个bucket

然后会去扫描每个数据的date field，判断date落在哪个bucket中，就将其放入那个bucket

2017-01-05，就将其放入2017-01-01~2017-01-31，就是一个bucket

min_doc_count：即使某个日期interval，2017-01-01~2017-01-31中，一条数据都没有，那么这个区间也是要返回的，不然默认是会过滤掉这个区间的
extended_bounds，min，max：划分bucket的时候，会限定在这个起始日期，和截止日期内

GET /tvs/sales/_search

{

   "size" : ,

   "aggs": {

      "sales": {

         "date_histogram": {

            "field": "sold_date",

            "interval": "month",

            "format": "yyyy-MM-dd",

            "min_doc_count" : ,

            "extended_bounds" : {

                "min" : "2016-01-01",

                "max" : "2017-12-31"

            }

         }

      }

   }

}

示例：统计每个季度每个品牌的销售额

GET /tvs/sales/_search

{

  "size": ,

  "aggs": {

    "group_by_sold_date": {

      "date_histogram": {

        "field": "sold_date",

        "interval": "quarter",

        "format": "yyyy-MM-dd",

        "min_doc_count": ,

        "extended_bounds": {

          "min": "2016-01-01",

          "max": "2017-12-31"

        }

      },

      "aggs": {

        "group_by_brand": {

          "terms": {

            "field": "brand"

          },

          "aggs": {

            "sum_price": {

              "sum": {

                "field": "price"

              }

            }

          }

        },

        "total_sum_price": {

          "sum": {

            "field": "price"

          }

        }

      }

    }

  }

}

Elasticsearch学习之深入聚合分析二---案例实战的更多相关文章

Elasticsearch学习之深入聚合分析四---案例实战
1. 需求:比如有一个网站,记录下了每次请求的访问的耗时,需要统计tp50,tp90,tp99 tp50:50%的请求的耗时最长在多长时间tp90:90%的请求的耗时最长在多长时间tp99:99%的请 ...
Elasticsearch学习之深入聚合分析三---案例实战
1. 统计指定品牌下每个颜色的销量任何的聚合,都必须在搜索出来的结果数据中进行,搜索结果,就是聚合分析操作的scope GET /tvs/sales/_search { , "query& ...
Elasticsearch学习之深入聚合分析五---案例实战
1. fielddata核心原理 fielddata加载到内存的过程是lazy加载的,对一个analzyed field执行聚合时,才会加载,而且是field-level加载的,一个index的一个f ...
Elasticsearch学习之深入聚合分析一---基本概念
首先明白两个核心概念:bucket和metric 1. bucket:一个数据分组 city name 北京小李北京小王上海小张上海小丽上海小陈基于city划分buckets,划分 ...
ElasticStack学习（八）：ElasticSearch索引模板与聚合分析初探
一.Index Template与Dynamic Template的概念 1.Index Template:它是用来根据提前设定的Mappings和Settings,并按照一定的规则,自动匹配到新创建 ...
elasticsearch系列六：聚合分析（聚合分析简介、指标聚合、桶聚合）
一.聚合分析简介 1. ES聚合分析是什么? 聚合分析是数据库中重要的功能特性,完成对一个查询的数据集中数据的聚合计算,如:找出某字段(或计算表达式的结果)的最大值.最小值,计算和.平均值等.ES作为 ...
ElasticSearch 简单的搜索聚合分析
一. 搜索1.DSL搜索全部数据没有任何条件 GET /shop/goods/_search { "query": { "match_all": {} } } ...
Elasticsearch学习之嵌套聚合，下钻分析，聚合分析
1. 计算每个tag下的商品数量 GET /ecommerce/product/_search { "aggs": { "group_by_tags": { & ...
Java之微信支付(扫码支付模式二)案例实战
摘要:最近的一个项目中涉及到了支付业务,其中用到了微信支付和支付宝支付,在做的过程中也遇到些问题,所以现在总结梳理一下,分享给有需要的人,也为自己以后回顾留个思路. 一:微信支付接入准备工作: 首先, ...

随机推荐

单例模式简介以及C++版本的实现
本篇博文主要内容参考 C++的单例模式一文,在此,为原作者耐心细致的分析讲解,表示感谢.本文将结合此篇文章,给出自己做实验后的理解以及代码,作为今天学习的小结. 单例模式,它的意图是保 ...
UNIX环境编程学习笔记（6）——文件I/O之判断文件类型
lienhua342014-09-01 1 文件类型我们平时最常接触的文件类型有普通文件(regular file)和目录(di-rectory file),但是 UNIX 系统提供了多种文件类型: ...
MongoDB 之幽灵操作避免
进行静态加载数据到集合的过程中可能会出现. 假设建立一个任务(Job):在MongoDB中进行千条更新操作,开始后迅速终止任务,终止所有更新操作,但依然发现新的更新任务在不断出现,即使任务已经停止. ...
ubuntu 12.04 右上角的网络连接图标突然消失不见
某天Ubuntu右上角的网络连接图标突然消失不见了,右击panel -> add to panel -> Notification Area 也不管用,最关键的是上不了网了.可以在Netw ...
Python 网络编程相关知识学习
Python 网络编程 Python 提供了两个级别访问的网络服务.: 低级别的网络服务支持基本的 Socket,它提供了标准的 BSD Sockets API,可以访问底层操作系统Socket接口的 ...
log4j MDC用户操作日志追踪配置
一.MDC介绍 MDC(Mapped Diagnostic Context,映射调试上下文)是 log4j 和 logback 提供的一种方便在多线程条件下记录日志的功能.某些应用程序采用多线程的方式 ...
pytesseract 报windows err no2的错误
需要把源安装文件pytesseract.py的修改为,tesseract_cmd = 'C:/Program Files (x86)/Tesseract-OCR/tesseract.exe' 原始是t ...
MTK 永不熄屏
步骤一: 源码/frameworks/base/packages/SettingsProvider/res/values/defaults.xml 修改<integername=</int ...
nodejs与Promise的思想碰撞
玩node的同志们都知道,当这门语言被提出来的时候,作为自己最为骄傲的异步机制,却被PHP和Python等战团喷得不成样子的是,他们嘲笑着nodejs那蠢蠢的无限嵌套,nodejs战团只能以我们只要性 ...
android中sharedPreferences的用法(转)
SharedPreferences介绍: 做软件开发应该都知道,很多软件会有配置文件,里面存放这程序运行当中的各个属性值,由于其配置信息并不多,如果采用数据库来存放并不划算,因为数据库连接跟操作等 ...

Elasticsearch学习之深入聚合分析二---案例实战

Elasticsearch学习之深入聚合分析二---案例实战的更多相关文章

随机推荐

热门专题