Hive函数：GROUPING SETS,GROUPING_

参考：lxw大数据田地：http://lxw1234.com/archives/2015/04/193.htm

数据准备：

CREATE EXTERNAL TABLE test_data (

month STRING,

day STRING,

cookieid STRING

) ROW FORMAT DELIMITED

FIELDS TERMINATED BY ','

stored as textfile location '/user/jc_rc_ftp/test_data';

select * from test_data l;

+----------+-------------+-------------+--+

| l.month  |    l.day    | l.cookieid  |

+----------+-------------+-------------+--+

| 2015-03  | 2015-03-10  | cookie1     |

| 2015-03  | 2015-03-10  | cookie5     |

| 2015-03  | 2015-03-12  | cookie7     |

| 2015-04  | 2015-04-12  | cookie3     |

| 2015-04  | 2015-04-13  | cookie2     |

| 2015-04  | 2015-04-13  | cookie4     |

| 2015-04  | 2015-04-16  | cookie4     |

| 2015-03  | 2015-03-10  | cookie2     |

| 2015-03  | 2015-03-10  | cookie3     |

| 2015-04  | 2015-04-12  | cookie5     |

| 2015-04  | 2015-04-13  | cookie6     |

| 2015-04  | 2015-04-15  | cookie3     |

| 2015-04  | 2015-04-15  | cookie2     |

| 2015-04  | 2015-04-16  | cookie1     |

+----------+-------------+-------------+--+

14 rows selected (0.249 seconds)

GROUPING SETS

在一个GROUP BY查询中，根据不同的维度组合进行聚合，等价于将不同维度的GROUP BY结果集进行UNION ALL

SELECT

month,

day,

COUNT(DISTINCT cookieid) AS uv,

GROUPING__ID

FROM test_data

GROUP BY month,day

GROUPING SETS (month,day)

ORDER BY GROUPING__ID;

等价于

SELECT month,NULL,COUNT(DISTINCT cookieid) AS uv,1 AS GROUPING__ID FROM test_data GROUP BY month

UNION ALL

SELECT NULL,day,COUNT(DISTINCT cookieid) AS uv,2 AS GROUPING__ID FROM test_data GROUP BY day

+----------+-------------+-----+---------------+--+

|  month   |     day     | uv  | grouping__id  |

+----------+-------------+-----+---------------+--+

| 2015-04  | NULL        | 6   | 1             |

| 2015-03  | NULL        | 5   | 1             |

| NULL     | 2015-04-16  | 2   | 2             |

| NULL     | 2015-04-15  | 2   | 2             |

| NULL     | 2015-04-13  | 3   | 2             |

| NULL     | 2015-04-12  | 2   | 2             |

| NULL     | 2015-03-12  | 1   | 2             |

| NULL     | 2015-03-10  | 4   | 2             |

+----------+-------------+-----+---------------+--+

8 rows selected (177.299 seconds)

SELECT

month,

day,

COUNT(DISTINCT cookieid) AS uv,

GROUPING__ID

FROM test_data

GROUP BY month,day

GROUPING SETS (month,day,(month,day))

ORDER BY GROUPING__ID;

等价于

SELECT month,NULL,COUNT(DISTINCT cookieid) AS uv,1 AS GROUPING__ID FROM test_data GROUP BY month

UNION ALL

SELECT NULL,day,COUNT(DISTINCT cookieid) AS uv,2 AS GROUPING__ID FROM test_data GROUP BY day

UNION ALL

SELECT month,day,COUNT(DISTINCT cookieid) AS uv,3 AS GROUPING__ID FROM test_data GROUP BY month,day

+----------+-------------+-----+---------------+--+

|  month   |     day     | uv  | grouping__id  |

+----------+-------------+-----+---------------+--+

| 2015-04  | NULL        | 6   | 1             |

| 2015-03  | NULL        | 5   | 1             |

| NULL     | 2015-03-10  | 4   | 2             |

| NULL     | 2015-04-16  | 2   | 2             |

| NULL     | 2015-04-15  | 2   | 2             |

| NULL     | 2015-04-13  | 3   | 2             |

| NULL     | 2015-04-12  | 2   | 2             |

| NULL     | 2015-03-12  | 1   | 2             |

| 2015-04  | 2015-04-16  | 2   | 3             |

| 2015-04  | 2015-04-12  | 2   | 3             |

| 2015-04  | 2015-04-13  | 3   | 3             |

| 2015-03  | 2015-03-12  | 1   | 3             |

| 2015-03  | 2015-03-10  | 4   | 3             |

| 2015-04  | 2015-04-15  | 2   | 3             |

+----------+-------------+-----+---------------+--+

备注：其中的 GROUPING__ID，表示结果属于哪一个分组集合。

CUBE

根据GROUP BY的维度的所有组合进行聚合。

SELECT

month,

day,

COUNT(DISTINCT cookieid) AS uv,

GROUPING__ID

FROM test_data

GROUP BY month,day

WITH CUBE

ORDER BY GROUPING__ID;

等价于

SELECT NULL,NULL,COUNT(DISTINCT cookieid) AS uv,0 AS GROUPING__ID FROM test_data

UNION ALL

SELECT month,NULL,COUNT(DISTINCT cookieid) AS uv,1 AS GROUPING__ID FROM test_data GROUP BY month

UNION ALL

SELECT NULL,day,COUNT(DISTINCT cookieid) AS uv,2 AS GROUPING__ID FROM test_data GROUP BY day

UNION ALL

SELECT month,day,COUNT(DISTINCT cookieid) AS uv,3 AS GROUPING__ID FROM test_data GROUP BY month,day

+----------+-------------+-----+---------------+--+

|  month   |     day     | uv  | grouping__id  |

+----------+-------------+-----+---------------+--+

| NULL     | NULL        | 7   | 0             |

| 2015-03  | NULL        | 5   | 1             |

| 2015-04  | NULL        | 6   | 1             |

| NULL     | 2015-04-16  | 2   | 2             |

| NULL     | 2015-04-15  | 2   | 2             |

| NULL     | 2015-04-13  | 3   | 2             |

| NULL     | 2015-04-12  | 2   | 2             |

| NULL     | 2015-03-12  | 1   | 2             |

| NULL     | 2015-03-10  | 4   | 2             |

| 2015-04  | 2015-04-12  | 2   | 3             |

| 2015-04  | 2015-04-16  | 2   | 3             |

| 2015-03  | 2015-03-12  | 1   | 3             |

| 2015-03  | 2015-03-10  | 4   | 3             |

| 2015-04  | 2015-04-15  | 2   | 3             |

| 2015-04  | 2015-04-13  | 3   | 3             |

+----------+-------------+-----+---------------+--+

ROLLUP

是CUBE的子集，以最左侧的维度为主，从该维度进行层级聚合。

比如，以month维度进行层级聚合：

SELECT

month,

day,

COUNT(DISTINCT cookieid) AS uv,

GROUPING__ID

FROM test_data

GROUP BY month,day

WITH ROLLUP

ORDER BY GROUPING__ID;

可以实现这样的上钻过程：月天的UV->月的UV->总UV

+----------+-------------+-----+---------------+--+

|  month   |     day     | uv  | grouping__id  |

+----------+-------------+-----+---------------+--+

| NULL     | NULL        | 7   | 0             |

| 2015-04  | NULL        | 6   | 1             |

| 2015-03  | NULL        | 5   | 1             |

| 2015-04  | 2015-04-16  | 2   | 3             |

| 2015-04  | 2015-04-15  | 2   | 3             |

| 2015-04  | 2015-04-13  | 3   | 3             |

| 2015-04  | 2015-04-12  | 2   | 3             |

| 2015-03  | 2015-03-12  | 1   | 3             |

| 2015-03  | 2015-03-10  | 4   | 3             |

+----------+-------------+-----+---------------+--+

--把month和day调换顺序，则以day维度进行层级聚合：

SELECT

day,

month,

COUNT(DISTINCT cookieid) AS uv,

GROUPING__ID

FROM test_data

GROUP BY day,month

WITH ROLLUP

ORDER BY GROUPING__ID;

+-------------+----------+-----+---------------+--+

|     day     |  month   | uv  | grouping__id  |

+-------------+----------+-----+---------------+--+

| NULL        | NULL     | 7   | 0             |

| 2015-04-12  | NULL     | 2   | 1             |

| 2015-04-15  | NULL     | 2   | 1             |

| 2015-03-12  | NULL     | 1   | 1             |

| 2015-04-16  | NULL     | 2   | 1             |

| 2015-03-10  | NULL     | 4   | 1             |

| 2015-04-13  | NULL     | 3   | 1             |

| 2015-04-16  | 2015-04  | 2   | 3             |

| 2015-04-15  | 2015-04  | 2   | 3             |

| 2015-04-13  | 2015-04  | 3   | 3             |

| 2015-03-12  | 2015-03  | 1   | 3             |

| 2015-03-10  | 2015-03  | 4   | 3             |

| 2015-04-12  | 2015-04  | 2   | 3             |

+-------------+----------+-----+---------------+--+

可以实现这样的上钻过程：
天月的UV->天的UV->总UV
（这里，根据天和月进行聚合，和根据天聚合结果一样，因为有父子关系，如果是其他维度组合的话，就会不一样）

Hive函数：GROUPING SETS,GROUPING__ID,CUBE,ROLLUP的更多相关文章

Hive高阶聚合函数 GROUPING SETS、Cube、Rollup
-- GROUPING SETS作为GROUP BY的子句,允许开发人员在GROUP BY语句后面指定多个统计选项,可以简单理解为多条group by语句通过union all把查询结果聚合起来结合起 ...
Hive SQL grouping sets 用法
概述 GROUPING SETS,GROUPING__ID,CUBE,ROLLUP 这几个分析函数通常用于OLAP中,不能累加,而且需要根据不同维度上钻和下钻的指标统计,比如,分小时.天.月的UV数. ...
hive中grouping sets的使用
hive中grouping sets 数量较多时如何处理? 可以使用如下设置来 set hive.new.job.grouping.set.cardinality = 30; 这条设置的意义在于 ...
GROUPING SETS、CUBE、ROLLUP
其实还是写一个Demo 比较好 USE tempdb IF OBJECT_ID( 'dbo.T1' , 'U' )IS NOT NULL BEGIN DROP TABLE dbo.T1; END; G ...
Hive学习之路（十七）Hive分析窗口函数(五) GROUPING SETS、GROUPING__ID、CUBE和ROLLUP
概述 GROUPING SETS,GROUPING__ID,CUBE,ROLLUP 这几个分析函数通常用于OLAP中,不能累加,而且需要根据不同维度上钻和下钻的指标统计,比如,分小时.天.月的UV数. ...
解析数仓OLAP函数：ROLLUP、CUBE、GROUPING SETS
摘要:GaussDB(DWS) ROLLUP,CUBE,GROUPING SETS等OLAP函数的原理解析. 本文分享自华为云社区<GaussDB(DWS) OLAP函数浅析>,作者: D ...
Oracle的rollup、cube、grouping sets函数
转载自:https://blog.csdn.net/huang_xw/article/details/6402396 Oracle的group by除了基本用法以外,还有3种扩展用法,分别是rollu ...
SQL Server2008 程序设计汇总 GROUP BY，WITH ROLLUP，WITH CUBE，GROUPING SETS(..)
--SQL Server2008 程序设计汇总 GROUP BY ,WITH ROLLUP WITH CUBE GROUPING SET(..) /*********************** ...
TSQL 分组集（Grouping Sets）
分组集(Grouping Sets)是多个分组的并集,用于在一个查询中,按照不同的分组列对集合进行聚合运算,等价于对单个分组使用“union all”,计算多个结果集的并集.使用分组集的聚合查询,返回 ...

随机推荐

Asp.Net Core 2.0 项目实战（11）基于OnActionExecuting全局过滤器，页面操作权限过滤控制到按钮级
1．权限管理权限管理的基本定义:百度百科. 基于<Asp.Net Core 2.0 项目实战(10) 基于cookie登录授权认证并实现前台会员.后台管理员同时登录>我们做过了登录认证, ...
ssh 提示Connection closed by * 的解决方案
使用ssh方式连接linux系统时,发现一直上报这个错误: Connection closed by 192.168.3.71 port 22 刚开始还以为是端口被防火墙禁止了呢,通过关闭和查看,并没 ...
使用nodegrass简单封装http请求例子
1.项目中经常性的使用http发送请求处理数据.而大部分请求方式为get和post,于是对http请求进行封装,提供代码的利用率. 2.nodegress是nodejs的一个请求工具. 具体步骤及代码 ...
ajax利用FormData异步文件提交
通常情况下,我们上传文件都会使用form表单来提交文件.但有时候,我们会有异步提交文件的需求,在这种情况下,我们就需要新建一个Formdata来提交文件,后台如果使用的是PHP的话可以使用$_FILE ...
sentinel监控redis高可用集群（一）
一.首先配置redis的主从同步集群. 1.主库的配置文件不用修改,从库的配置文件只需增加一行,说明主库的IP端口.如果需要验证的,也要加多一行,认证密码. slaveof 192.168.20.26 ...
Oracle 12c（12.1.0.5）OEM server agent 安装配置
注意: 此文档为生产上操作文档,省略了IP,oracle用户server,agent 端至少需要sudo,ping,ssh,创建目录权限. 一.安装要求 1.1. 系统情况一览 IP 数据库 OEM ...
day1-计算机基础
第一单元计算机组成原理一.概念及过程 1.进行逻辑和数值高速计算的计算机器,有存储功能,能按照程序自动执行,且能够处理海量数据的现代化电子设备. 2.发展过程数学运算:算盘,帕斯卡的齿轮装置, ...
在linux下如何使用yum查看安装了哪些软件包
$yum list installed //列出所有已安装的软件包 yum针对软件包操作常用命令: 1.使用YUM查找软件包命令:yum search 2.列出所有可安装的软件包命令:yum li ...
【Flask】 Jinja2模板语言
Jinja2 Jinja2是Python Web编程中的主流模板语言.因为flask是基于Jinja2和Werkzeug发展而来,在安装flask的时候jinja2自动就被装在上面了. 之前提到了很多 ...
react 实用的性能优化方式
react 组件渲染分为初始化渲染和更新渲染,当我们更新某个组件的时候,只是想关键路径上组件的render,但react的默认做法是调用所以组件的reder,再生成虚拟dom进行对比,如不变则不进行更 ...

Hive函数：GROUPING SETS,GROUPING__ID,CUBE,ROLLUP

GROUPING SETS

CUBE

ROLLUP

Hive函数：GROUPING SETS,GROUPING__ID,CUBE,ROLLUP的更多相关文章

随机推荐

热门专题