Hive高阶聚合函数 GROUPING SETS、Cube、Rollup

-- GROUPING SETS作为GROUP BY的子句，允许开发人员在GROUP BY语句后面指定多个统计选项，可以简单理解为多条group by语句通过union all把查询结果聚合起来结合起来。

select

     device_id

    ,os_id

    ,app_id

    ,count(user_id)

from test_xinyan_reg

group by device_id,os_id,app_id

grouping sets((device_id),(os_id),(device_id,os_id),())

-- 等价于

SELECT device_id,null,null,count(user_id) FROM test_xinyan_reg group by device_id UNION ALL

SELECT null,os_id,null,count(user_id) FROM test_xinyan_reg group by os_id UNION ALL

SELECT device_id,os_id,null,count(user_id) FROM test_xinyan_reg group by device_id,os_id UNION ALL

SELECT null,null,null,count(user_id) FROM test_xinyan_reg

;

-- cube简称数据魔方，可以实现hive多个任意维度的查询，cube(a,b,c)则首先会对(a,b,c)进行group by，然后依次是(a,b),(a,c),(a),(b,c),(b),©,最后在对全表进行group by，他会统计所选列中值的所有组合的聚合

-- cube即为grouping sets的简化过程函数

select device_id,os_id,app_id,client_version,from_id,count(user_id)

from test_xinyan_reg

group by device_id,os_id,app_id,client_version,from_id with cube;

-- rollup可以实现从右到做递减多级的统计，显示统计某一层次结构的聚合。

select device_id,os_id,app_id,client_version,from_id,count(user_id)

from test_xinyan_reg

group by device_id,os_id,app_id,client_version,from_id with rollup;

select

     id

    ,name

    ,count(age)

from (

    select 1 as id, 'a' as name,11 as age union all

    select 2 as id, 'b' as name,12 as age union all

    select 3 as id, 'c' as name,13 as age union all

    select 4 as id, 'd' as name,14 as age union all

    select 4 as id, 'd' as name,15 as age union all

    select 4 as id, 'd' as name,16 as age union all

    select 4 as id, 'd' as name,17 as age union all

    select 4 as id, 'd' as name,18 as age

) t1

group by

     id

    ,name

with cube

;

+------------+------------+------------+

| id         | name       | _c2        |

+------------+------------+------------+

| NULL       | NULL       | 8          |

| NULL       | a          | 1          |

| NULL       | b          | 1          |

| NULL       | c          | 1          |

| NULL       | d          | 5          |

| 1          | NULL       | 1          |

| 1          | a          | 1          |

| 2          | NULL       | 1          |

| 2          | b          | 1          |

| 3          | NULL       | 1          |

| 3          | c          | 1          |

| 4          | NULL       | 5          |

| 4          | d          | 5          |

+------------+------------+------------+

select

     id

    ,name

    ,count(age)

from (

    select 1 as id, 'a' as name,11 as age union all

    select 2 as id, 'b' as name,12 as age union all

    select 3 as id, 'c' as name,13 as age union all

    select 4 as id, 'd' as name,14 as age union all

    select 4 as id, 'd' as name,15 as age union all

    select 4 as id, 'd' as name,16 as age union all

    select 4 as id, 'd' as name,17 as age union all

    select 4 as id, 'd' as name,18 as age

) t1

group by

     id

    ,name

with rollup

;

+------------+------------+------------+

| id         | name       | _c2        |

+------------+------------+------------+

| NULL       | NULL       | 8          |

| 1          | NULL       | 1          |

| 1          | a          | 1          |

| 2          | NULL       | 1          |

| 2          | b          | 1          |

| 3          | NULL       | 1          |

| 3          | c          | 1          |

| 4          | NULL       | 5          |

| 4          | d          | 5          |

+------------+------------+------------+

ref: https://blog.csdn.net/qq_31573519/article/details/89054136

Hive高阶聚合函数 GROUPING SETS、Cube、Rollup的更多相关文章

SQL Server ->> GROUPING SETS, CUBE, ROLLUP, GROUPING, GROUPING_ID
在我们制作报表的时候常常需要分组聚合.多组聚合和总合.如果通过另外的T-SQL语句来聚合难免性能太差.如果通过报表工具的聚合功能虽说比使用额外的T-SQL语句性能上要好很多,不过不够干脆,还是需要先生 ...
grouping sets,cube,rollup,grouping__id,group by
例1: hive -e" select type ,status ,count(1) from usr_info where pt='2015-09-14' group by type,st ...
[Hive_11] Hive 的高级聚合函数
0. 说明 Hive 的高级聚合函数 union all | grouping sets | cube | rollup pv //page view 页面访问量 uv //user view 访问人 ...
转：GROUPING SETS、ROLLUP、CUBE
转:http://blog.csdn.net/shangboerds/article/details/5193211 大家对GROUP BY应该比较熟悉,如果你感觉自己并不完全理解GROUP BY,那 ...
GROUPING SETS、ROLLUP、CUBE
大家对GROUP BY应该比较熟悉,如果你感觉自己并不完全理解GROUP BY,那么本文不适合你.还记得当初学习SQL的时候,总是理解不了GROUP BY的作用,经过好长时间才终于明白GROUP BY ...
SQL Server 之 GROUP BY、GROUPING SETS、ROLLUP、CUBE
1.创建表 Staff CREATE TABLE [dbo].[Staff]( ,) NOT NULL, ) NULL, ) NULL, ) NULL, [Money] [int] NULL, [Cr ...
hive group by聚合函数增强
1.grouping sets grouping sets子句都可以根据UNION连接的多个GROUP BY查询进行逻辑表示 SELECT a,b,SUM(c)FROM tab1 GROUP BY a ...
Hive 高阶应用开发示例(一)
Hive的一些常用的高阶开发内容 1.开窗函数 2.行转列,列转行,多行转一行,一行转多行 3.分组: 增强型group 4.排序 5.关联本次的内容: 内容1 和内容2,采用 ...
Grouping Sets:CUBE和ROLLUP从句
在上一篇文章里我讨论了SQL Server里Grouping Sets的功能.从文中的例子可以看到,通过简单定义需要的分组集是很容易进行各自分组.但如果像从所给的列集里想要有所有可能的分布——即所谓的 ...

随机推荐

hibernate 查询最大值（数据条目数）
如下使用 SELECT COUNT(*) 然后获取最大值 Integer.parseInt(query.list().).toString()); 比如 StringBuffer hql1; hql ...
python元祖和列表
下面讲到的分别有: 列表:元祖列表的定义 list(列表)是python中使用最频繁的数据类型,在其他语言中叫做数组专门储存一串信息列表[ ]定义,数据之间有逗号分隔列表的索引是从0开始的 ...
python自动化--批量执行测试之生成报告
一.生成报告 1.先执行一个用例,并生成该用例的报告 # -*- coding: utf-8 -*- from selenium import webdriver from selenium.webd ...
linux系统级别的计划任务及其扩展anacrontab
这个是系统设置好了,清理系统垃圾或者是自动执行某些脚本的系统任务,一般我们做了解就行了,不要更改配置文件是/etc/conrtab SHELL:就是运行计划任务的解释器,默认是bash PATH:执行 ...
linux设置变量的三种方法
1在/etc/profile文件中添加变量对所有用户生效(永久的) 用VI在文件/etc/profile文件中增加变量,该变量将会对Linux下所有用户有效,并且是“永久生效”. 例如:编辑/etc/ ...
xinetd服务管理
xinetd服务的管理文件都放在 /etc/xinetd.d目录内,我们可以编辑这个目录内的服务文件来开启和关闭服务.每个服务文件都有disable 这个行,如果把值改成yes就是禁用服务,如果是no ...
cmd 运行 python
①cmd 进入行命令: ②输入 “python” + “空格”,即 ”python “:将已经写好的脚本文件拖拽到当前光标位置,然后敲回车运行即可.
SSH 相关基础
检查是否安装: sudo apt-cache policy openssh-client sudo apt-cache policy openssh-server 也可直接用 sudo apt-ca ...
DX9纹理半像素偏移-Directly Mapping Texels to Pixels
原文:DX9纹理半像素偏移-Directly Mapping Texels to Pixels 版权声明:本文为博主原创文章,未经博主允许不得转载. https://blog.csdn.net/u01 ...
Redis 扫盲
Redis扫盲非关系型数据库分类: 键值存储数据库:主要会使用到一个 Hash 表,这个表有一个特定的键和一个指针指向特定的数据,Redis 列存储数据库:应对分布式存储的海量数据,键仍然存在,但是 ...

Hive高阶聚合函数 GROUPING SETS、Cube、Rollup

Hive高阶聚合函数 GROUPING SETS、Cube、Rollup的更多相关文章

随机推荐

热门专题