date: 2019-08-30 11:02:37

updated: 2019-08-30 14:40:00

Hive Sql的窗口函数

1. count、sum、avg、max、min

sum 为例

# 按照 year 来分组,统计每一年的总和
# 结果:每个月的值都是本年的总和
sum(val) over(partition by year) # 按照 year 来分组,按照 month 来排序
# 结果:n 月的值是本年 1 - n 月的累计值
sum(val) over(partition by year order by month)

通过 explain select ... 来查看语句解析,可以简单理解为,在每一次 order by 之后,会执行一次 sumreduce 过程,也就导致结果计算的是 1 - n 月的累计值

2. rows between

sum 为例

# 按照 year 分组,按照 month 排序,计算前3行和后1行的总和
sum(val) over(partition by year order by month rows between 3 preceding and 1 following)
  • preceding:往前
  • following:往后
  • current row:当前行
  • unbounded:起点
    • unbounded preceding:表示从前面的起点
    • unbounded following:表示到后面的终点
# 以下两种方式是等效的
sum(val) over(partition by year)
sum(val) over(partition by year rows between unbounded preceding and unbounded following) # 以下两种方式是等效的
sum(val) over(partition by year order by month)
sum(val) over(partition by year order by month rows between unbounded preceding and current row) # 以下两种方式不等效
sum(val) over(partition by year rows between unbounded preceding and current row)
sum(val) over(partition by year order by month rows between unbounded preceding and current row)
# current row 应该是和 order by 同时出现,要不然会导致数据错位

3. ntile

切片:用于将分组数据按照顺序切分成n片,返回当前切片值;不支持 rows between;如果切片不均匀,默认增加第一个切片的分布(比如有6条数据,分4组,数量依次为2 2 1 1)

# 统计一个月内,val 最多的前 1/n
ntile(n) over(partition by month order by val desc) as rn
rn = 1 就是最终想要的结果,前提是数据可以被均匀分片

4. row_number、rank、dense_rank

  • row_number:行号
  • rank:排名——结果中可能有空位 eg:1 2 2 4
  • dense_rank:排名——结果中无空位 eg:1 2 2 3

5. cume_dist

计算公式:(小于等于当前值的行数 / 分组内的总行数)

# 统计小于等于当前薪水的人占部门内总人数的比例
cume_dist() over(partition by dept order by salary)

6. percent_rank

计算公式:(分组内当前行的rank值 - 1 / 分组内总行数 - 1)

7. lag(col, n, DEFAULT)

统计窗口内往上第 n 行值

三个参数分别是:列名;往上第 n 行(可选,默认是1);当往上第 n 行为 NULL 的时候,取默认值,如不指定,则为 NULL

8. lead(col, n, DEFAULT)

统计窗口内往下第 n 行值

三个参数分别是:列名;往下第 n 行(可选,默认是1);当往下第 n 行为 NULL 的时候,取默认值,如不指定,则为 NULL

9. first_value(col)

取分组内排序后,取第一个的 col

first_value(col) over(partition by ... order by ...)

10. last_value(col)

取分组内排序后,截止到当前行,最后一个的 col => 相当于分组排序后,取当前这一行的 col

last_value(col) over(partition by ... order by ...)

如果不指定 order by,则默认按照记录在文件中的偏移量进行排序,会出现错误的结果

如果要取分组内排序后最后一个 col,可以换成下面的形式

first_value(col) over(partition by ... order by ... desc)

11. grouping sets

在一个 group by 查询中,根据不同的维度组合进行聚合,等价于将不同维度的 group by 结果集进行 union all

select year, month, count(1)a, grouping__id
from ...
group by year, month
grouping sets(year, month, (year, month))
order by grouping__id 等价于 select year, 'null' as month, count(1)a, 1 as grouping__id
from ...
group by year, month
union all
select 'null' as year, month, count(1)a, 2 as grouping__id
from ...
group by month
union all
select year, month, count(1)a, 3 as grouping__id
from ...
group by year, month

grouping sets (col1, col2 ...) 使用前必须要先写 group by (col1, col2 ...), grouping sets 表示在 group by 括号内出现的字段组合的情况,所以 grouping sets 出现的字段肯定是在 group by 中出现过的

grouping__id 表示结果属于哪一个分组集合,只能和 grouping sets 组合着用,单独使用报错。有两个下划线!!!

12. cube

根据 group by 的维度的所有组合进行聚合。

select year, month, count(1)a, grouping__id
from ...
group by year, month
with cube
order by grouping__id 等价于以下四种情况 union all
1. 相当于直接 count(1)a
2. 按照 year 来分组
3. 按照 month 来分组
4. 按照 year&month 来分组

13. rollup

是 cube 的子集,以最左侧的维度为主,从该维度进行层级聚合。

select year, month, count(1)a, grouping__id
from ...
group by year, month
with rollup
order by grouping__id 等价于先进行 with cube操作,即以下四种情况 union all
1. 相当于直接 count(1)a
2. 按照 year 来分组
3. 按照 month 来分组
4. 按照 year&month 来分组 然后 year 是最左侧的维度,则按照 year 来进行层级聚合,过滤掉 year 为 NULL 的记录(但是第1中情况对所有数据进行count(1)的这一条数据会依旧保存)

Hive Sql的窗口函数的更多相关文章

  1. Hive中的窗口函数

    简介 本文主要介绍hive中的窗口函数.hive中的窗口函数和sql中的窗口函数相类似,都是用来做一些数据分析类的工作,一般用于olap分析 概念 我们都知道在sql中有一类函数叫做聚合函数,例如su ...

  2. Hive Sql的日常使用笔记

    date: 2019-03-22 17:02:37 updated: 2020-04-08 16:00:00 Hive Sql的日常使用笔记 1. distinct 和 group by distin ...

  3. 最强最全面的Hive SQL开发指南,超四万字全面解析

    本文整体分为两部分,第一部分是简写,如果能看懂会用,就直接从此部分查,方便快捷,如果不是很理解此SQL的用法,则查看第二部分,是详细说明,当然第二部分语句也会更全一些! 第一部分: hive模糊搜索表 ...

  4. Hive(十)【窗口函数】

    目录 一.定义 窗口函数: 标准聚合函数 分析排名函数 二.语法 (1)窗口函数 over([partition by 字段] [order by 字段] [ 窗口语句]) (2)窗口语句 三.需求练 ...

  5. 【hive】——Hive sql语法详解

    Hive 是基于Hadoop 构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据,可以将结构 化的数据文件映射为一张数据库表,并提供完整的SQL查 ...

  6. Hive SQL 监控系统 - Hive Falcon

    1.概述 在开发工作当中,提交 Hadoop 任务,任务的运行详情,这是我们所关心的,当业务并不复杂的时候,我们可以使用 Hadoop 提供的命令工具去管理 YARN 中的任务.在编写 Hive SQ ...

  7. hive sql 语法详解

    Hive 是基于Hadoop 构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据,可以将结构 化的数据文件映射为一张数据库表,并提供完整的SQL查 ...

  8. Hive sql 语法解读

    一. 创建表 在官方的wiki里,example是这种: Sql代码   CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name d ...

  9. Spark(Hive) SQL中UDF的使用(Python)

    相对于使用MapReduce或者Spark Application的方式进行数据分析,使用Hive SQL或Spark SQL能为我们省去不少的代码工作量,而Hive SQL或Spark SQL本身内 ...

随机推荐

  1. 关于windows服务器创建一个ps1脚本的周期性定时任务

    测试环境: Windows Server 2008 R2 Standard  & Windows Server 2012 R2 Standard 周期运行的ps脚本:Clean_up_Secu ...

  2. 每天一个dos命令-del.

    比较常用的选项: /F 强制删除只读文件. /Q 安静模式.删除全局通配符时,不要求确认 文件名或者路径中有空格,需要使用引号包围 常用的实例:del  /q/f   c:\Securitylog\S ...

  3. Java多线程--创建和使用线程池

    使用线程池的目的 线程是稀缺资源,不能频繁的创建 解耦作用:线程的创建与执行完全分开,方便维护 将其放入一个池子中,可以给其他任务进行复用 优点 降低资源消耗,通过重复利用已创建的线程来降低线程创建和 ...

  4. spring源码之bean的初始化及循环引用

    实例化方法,把bean实例化,并且包装成BeanWrapper 1.点进这个方法里面. 这个方法是反射调用类中的 factoryMethod 方法. 这要知道@Bean 方法的原理, 实际上sprin ...

  5. Python 3 入门,看这篇就够了(超全整理)

    史上最全Python资料汇总(长期更新).隔壁小孩都馋哭了 --- 点击领取 今天和大家分享的内容是Python入门干货,文章很长. 简介 Python 是一种高层次的结合了解释性.编译性.互动性和面 ...

  6. 【小白学PyTorch】17 TFrec文件的创建与读取

    [新闻]:机器学习炼丹术的粉丝的人工智能交流群已经建立,目前有目标检测.医学图像.时间序列等多个目标为技术学习的分群和水群唠嗑的总群,欢迎大家加炼丹兄为好友,加入炼丹协会.微信:cyx64501661 ...

  7. 024 01 Android 零基础入门 01 Java基础语法 03 Java运算符 04 关系运算符

    024 01 Android 零基础入门 01 Java基础语法 03 Java运算符 04 关系运算符 本文知识点:Java中的关系运算符 关系运算符

  8. tomcat:tomcat安装(在一台电脑上安装两个tomcat)

    1.安装前的说明 (1)在安装第二个tomcat之前,我们要知道安装一台tomcat的时候需要在电脑上添加两个系统变量 然后在path中配置: (2)这个时候我们就要思考了,当安装第二台服务器的时候首 ...

  9. Java NIO:通道

    最近打算把Java网络编程相关的知识深入一下(IO.NIO.Socket编程.Netty) Java NIO主要需要理解缓冲区.通道.选择器三个核心概念,作为对Java I/O的补充, 以提升大批量数 ...

  10. 极简 Node.js 入门 - 4.5 双工流

    极简 Node.js 入门系列教程:https://www.yuque.com/sunluyong/node 本文更佳阅读体验:https://www.yuque.com/sunluyong/node ...