Hive函数：GROUPING SETS,GROUPING_

参考：lxw大数据田地：http://lxw1234.com/archives/2015/04/193.htm

数据准备：

CREATE EXTERNAL TABLE test_data (

month STRING,

day STRING,

cookieid STRING

) ROW FORMAT DELIMITED

FIELDS TERMINATED BY ','

stored as textfile location '/user/jc_rc_ftp/test_data';

select * from test_data l;

+----------+-------------+-------------+--+

| l.month  |    l.day    | l.cookieid  |

+----------+-------------+-------------+--+

| 2015-03  | 2015-03-10  | cookie1     |

| 2015-03  | 2015-03-10  | cookie5     |

| 2015-03  | 2015-03-12  | cookie7     |

| 2015-04  | 2015-04-12  | cookie3     |

| 2015-04  | 2015-04-13  | cookie2     |

| 2015-04  | 2015-04-13  | cookie4     |

| 2015-04  | 2015-04-16  | cookie4     |

| 2015-03  | 2015-03-10  | cookie2     |

| 2015-03  | 2015-03-10  | cookie3     |

| 2015-04  | 2015-04-12  | cookie5     |

| 2015-04  | 2015-04-13  | cookie6     |

| 2015-04  | 2015-04-15  | cookie3     |

| 2015-04  | 2015-04-15  | cookie2     |

| 2015-04  | 2015-04-16  | cookie1     |

+----------+-------------+-------------+--+

14 rows selected (0.249 seconds)

GROUPING SETS

在一个GROUP BY查询中，根据不同的维度组合进行聚合，等价于将不同维度的GROUP BY结果集进行UNION ALL

SELECT

month,

day,

COUNT(DISTINCT cookieid) AS uv,

GROUPING__ID

FROM test_data

GROUP BY month,day

GROUPING SETS (month,day)

ORDER BY GROUPING__ID;

等价于

SELECT month,NULL,COUNT(DISTINCT cookieid) AS uv,1 AS GROUPING__ID FROM test_data GROUP BY month

UNION ALL

SELECT NULL,day,COUNT(DISTINCT cookieid) AS uv,2 AS GROUPING__ID FROM test_data GROUP BY day

+----------+-------------+-----+---------------+--+

|  month   |     day     | uv  | grouping__id  |

+----------+-------------+-----+---------------+--+

| 2015-04  | NULL        | 6   | 1             |

| 2015-03  | NULL        | 5   | 1             |

| NULL     | 2015-04-16  | 2   | 2             |

| NULL     | 2015-04-15  | 2   | 2             |

| NULL     | 2015-04-13  | 3   | 2             |

| NULL     | 2015-04-12  | 2   | 2             |

| NULL     | 2015-03-12  | 1   | 2             |

| NULL     | 2015-03-10  | 4   | 2             |

+----------+-------------+-----+---------------+--+

8 rows selected (177.299 seconds)

SELECT

month,

day,

COUNT(DISTINCT cookieid) AS uv,

GROUPING__ID

FROM test_data

GROUP BY month,day

GROUPING SETS (month,day,(month,day))

ORDER BY GROUPING__ID;

等价于

SELECT month,NULL,COUNT(DISTINCT cookieid) AS uv,1 AS GROUPING__ID FROM test_data GROUP BY month

UNION ALL

SELECT NULL,day,COUNT(DISTINCT cookieid) AS uv,2 AS GROUPING__ID FROM test_data GROUP BY day

UNION ALL

SELECT month,day,COUNT(DISTINCT cookieid) AS uv,3 AS GROUPING__ID FROM test_data GROUP BY month,day

+----------+-------------+-----+---------------+--+

|  month   |     day     | uv  | grouping__id  |

+----------+-------------+-----+---------------+--+

| 2015-04  | NULL        | 6   | 1             |

| 2015-03  | NULL        | 5   | 1             |

| NULL     | 2015-03-10  | 4   | 2             |

| NULL     | 2015-04-16  | 2   | 2             |

| NULL     | 2015-04-15  | 2   | 2             |

| NULL     | 2015-04-13  | 3   | 2             |

| NULL     | 2015-04-12  | 2   | 2             |

| NULL     | 2015-03-12  | 1   | 2             |

| 2015-04  | 2015-04-16  | 2   | 3             |

| 2015-04  | 2015-04-12  | 2   | 3             |

| 2015-04  | 2015-04-13  | 3   | 3             |

| 2015-03  | 2015-03-12  | 1   | 3             |

| 2015-03  | 2015-03-10  | 4   | 3             |

| 2015-04  | 2015-04-15  | 2   | 3             |

+----------+-------------+-----+---------------+--+

备注：其中的 GROUPING__ID，表示结果属于哪一个分组集合。

CUBE

根据GROUP BY的维度的所有组合进行聚合。

SELECT

month,

day,

COUNT(DISTINCT cookieid) AS uv,

GROUPING__ID

FROM test_data

GROUP BY month,day

WITH CUBE

ORDER BY GROUPING__ID;

等价于

SELECT NULL,NULL,COUNT(DISTINCT cookieid) AS uv,0 AS GROUPING__ID FROM test_data

UNION ALL

SELECT month,NULL,COUNT(DISTINCT cookieid) AS uv,1 AS GROUPING__ID FROM test_data GROUP BY month

UNION ALL

SELECT NULL,day,COUNT(DISTINCT cookieid) AS uv,2 AS GROUPING__ID FROM test_data GROUP BY day

UNION ALL

SELECT month,day,COUNT(DISTINCT cookieid) AS uv,3 AS GROUPING__ID FROM test_data GROUP BY month,day

+----------+-------------+-----+---------------+--+

|  month   |     day     | uv  | grouping__id  |

+----------+-------------+-----+---------------+--+

| NULL     | NULL        | 7   | 0             |

| 2015-03  | NULL        | 5   | 1             |

| 2015-04  | NULL        | 6   | 1             |

| NULL     | 2015-04-16  | 2   | 2             |

| NULL     | 2015-04-15  | 2   | 2             |

| NULL     | 2015-04-13  | 3   | 2             |

| NULL     | 2015-04-12  | 2   | 2             |

| NULL     | 2015-03-12  | 1   | 2             |

| NULL     | 2015-03-10  | 4   | 2             |

| 2015-04  | 2015-04-12  | 2   | 3             |

| 2015-04  | 2015-04-16  | 2   | 3             |

| 2015-03  | 2015-03-12  | 1   | 3             |

| 2015-03  | 2015-03-10  | 4   | 3             |

| 2015-04  | 2015-04-15  | 2   | 3             |

| 2015-04  | 2015-04-13  | 3   | 3             |

+----------+-------------+-----+---------------+--+

ROLLUP

是CUBE的子集，以最左侧的维度为主，从该维度进行层级聚合。

比如，以month维度进行层级聚合：

SELECT

month,

day,

COUNT(DISTINCT cookieid) AS uv,

GROUPING__ID

FROM test_data

GROUP BY month,day

WITH ROLLUP

ORDER BY GROUPING__ID;

可以实现这样的上钻过程：月天的UV->月的UV->总UV

+----------+-------------+-----+---------------+--+

|  month   |     day     | uv  | grouping__id  |

+----------+-------------+-----+---------------+--+

| NULL     | NULL        | 7   | 0             |

| 2015-04  | NULL        | 6   | 1             |

| 2015-03  | NULL        | 5   | 1             |

| 2015-04  | 2015-04-16  | 2   | 3             |

| 2015-04  | 2015-04-15  | 2   | 3             |

| 2015-04  | 2015-04-13  | 3   | 3             |

| 2015-04  | 2015-04-12  | 2   | 3             |

| 2015-03  | 2015-03-12  | 1   | 3             |

| 2015-03  | 2015-03-10  | 4   | 3             |

+----------+-------------+-----+---------------+--+

--把month和day调换顺序，则以day维度进行层级聚合：

SELECT

day,

month,

COUNT(DISTINCT cookieid) AS uv,

GROUPING__ID

FROM test_data

GROUP BY day,month

WITH ROLLUP

ORDER BY GROUPING__ID;

+-------------+----------+-----+---------------+--+

|     day     |  month   | uv  | grouping__id  |

+-------------+----------+-----+---------------+--+

| NULL        | NULL     | 7   | 0             |

| 2015-04-12  | NULL     | 2   | 1             |

| 2015-04-15  | NULL     | 2   | 1             |

| 2015-03-12  | NULL     | 1   | 1             |

| 2015-04-16  | NULL     | 2   | 1             |

| 2015-03-10  | NULL     | 4   | 1             |

| 2015-04-13  | NULL     | 3   | 1             |

| 2015-04-16  | 2015-04  | 2   | 3             |

| 2015-04-15  | 2015-04  | 2   | 3             |

| 2015-04-13  | 2015-04  | 3   | 3             |

| 2015-03-12  | 2015-03  | 1   | 3             |

| 2015-03-10  | 2015-03  | 4   | 3             |

| 2015-04-12  | 2015-04  | 2   | 3             |

+-------------+----------+-----+---------------+--+

可以实现这样的上钻过程：
天月的UV->天的UV->总UV
（这里，根据天和月进行聚合，和根据天聚合结果一样，因为有父子关系，如果是其他维度组合的话，就会不一样）

Hive函数：GROUPING SETS,GROUPING__ID,CUBE,ROLLUP的更多相关文章

Hive高阶聚合函数 GROUPING SETS、Cube、Rollup
-- GROUPING SETS作为GROUP BY的子句,允许开发人员在GROUP BY语句后面指定多个统计选项,可以简单理解为多条group by语句通过union all把查询结果聚合起来结合起 ...
Hive SQL grouping sets 用法
概述 GROUPING SETS,GROUPING__ID,CUBE,ROLLUP 这几个分析函数通常用于OLAP中,不能累加,而且需要根据不同维度上钻和下钻的指标统计,比如,分小时.天.月的UV数. ...
hive中grouping sets的使用
hive中grouping sets 数量较多时如何处理? 可以使用如下设置来 set hive.new.job.grouping.set.cardinality = 30; 这条设置的意义在于 ...
GROUPING SETS、CUBE、ROLLUP
其实还是写一个Demo 比较好 USE tempdb IF OBJECT_ID( 'dbo.T1' , 'U' )IS NOT NULL BEGIN DROP TABLE dbo.T1; END; G ...
Hive学习之路（十七）Hive分析窗口函数(五) GROUPING SETS、GROUPING__ID、CUBE和ROLLUP
概述 GROUPING SETS,GROUPING__ID,CUBE,ROLLUP 这几个分析函数通常用于OLAP中,不能累加,而且需要根据不同维度上钻和下钻的指标统计,比如,分小时.天.月的UV数. ...
解析数仓OLAP函数：ROLLUP、CUBE、GROUPING SETS
摘要:GaussDB(DWS) ROLLUP,CUBE,GROUPING SETS等OLAP函数的原理解析. 本文分享自华为云社区<GaussDB(DWS) OLAP函数浅析>,作者: D ...
Oracle的rollup、cube、grouping sets函数
转载自:https://blog.csdn.net/huang_xw/article/details/6402396 Oracle的group by除了基本用法以外,还有3种扩展用法,分别是rollu ...
SQL Server2008 程序设计汇总 GROUP BY，WITH ROLLUP，WITH CUBE，GROUPING SETS(..)
--SQL Server2008 程序设计汇总 GROUP BY ,WITH ROLLUP WITH CUBE GROUPING SET(..) /*********************** ...
TSQL 分组集（Grouping Sets）
分组集(Grouping Sets)是多个分组的并集,用于在一个查询中,按照不同的分组列对集合进行聚合运算,等价于对单个分组使用“union all”,计算多个结果集的并集.使用分组集的聚合查询,返回 ...

随机推荐

python 装饰器一篇就能讲清楚
装饰器一直是我们学习python难以理解并且纠结的问题,想要弄明白装饰器,必须理解一下函数式编程概念,并且对python中函数调用语法中的特性有所了解,使用装饰器非常简单,但是写装饰器却很复杂.为了讲 ...
Eclipse 基础操作与设置
1.快捷键 ctrl+F 在某个文档里搜索对应字段 ctrl+H 全文件查询对应字段 ctrl +shift +R 快速查找某个java类 ctrl +shift +O 自动导入需要的包,删除没用过的 ...
程序员的入门简单的编程HelloWord
那么在上一章章节 http://www.cnblogs.com/Goraidh/p/8674329.html 我们简单的俩了解了一下什么是java和配置编写java的环境,本章呢我们学习如何编写一个简 ...
linux小白成长之路9————打包部署SpringBoot项目
[内容指引] SpringBoot项目介绍: 打包SpringBoot项目: 1.pom.xml: 2.application.properties配置: 3.application-dev.prop ...
网易云音乐APP分析
网易云音乐-感受音乐的力量你选择的产品是? 网易云音乐为什么选择该产品作为分析? 之前用的一直是QQ音乐,但是有一天一个朋友分享了一首网易云上的音乐(顺便分享一下歌名:Drop By Drop) ...
201621123040《Java程序设计》第3周学习总结
1.本周学习总结 1.1 写出你认为本周学习中比较重要的知识点关键词,如类.对象.封装等面向对象的思想对象类 1.2 用思维导图或者Onenote或其他工具将这些关键词组织起来. 掌握的还不够深 ...
iOS开发-FFmpeg深入分析
FFmpeg是相当强大的多媒体编解码框架,在深入分析其源代码之前必须要有基本的多媒体基础知识,否则其源代码会非常晦涩难懂.本文将从介绍一些基本的多媒体只是,主要是为研读ffmpeg源代码做准备,比如一 ...
在Apache中运行Python WSGI应用
我们介绍如何使用Apache模块mod_wsgi来运行Python WSGI应用. 安装mod_wsgi 我们假设你已经有了Apache和Python环境,在Linux或者Mac上,那第一步自然是安装 ...
aws中的路由表
参考官方文档: 由表中包含一系列被称为路由的规则,可用于判断网络流量的导向目的地. 在您的 VPC 中的每个子网必须与一个路由表关联:路由表控制子网的路由.一个子网一次只能与一个路由表关联,但您可以将 ...
5种做法实现table表格中的斜线表头效果
table表格,这个东西大家肯定都不陌生,代码中我们时常都能碰到,那么给table加一个斜线的表头有时是很有必要的,但是到底该怎么实现这种效果呢? 我总结了以下几种方法: 1.最最最简单的做法直接去 ...

Hive函数：GROUPING SETS,GROUPING__ID,CUBE,ROLLUP

GROUPING SETS

CUBE

ROLLUP

Hive函数：GROUPING SETS,GROUPING__ID,CUBE,ROLLUP的更多相关文章

随机推荐

热门专题