Hive中row_number()、dense_rank()、rank()的区别

摘要

本文对Hive中常用的三个排序函数row_number()、dense_rank()、rank()的特性进行类比和总结，并通过笔者亲自动手写的一个小实验，直观展现这三个函数的特点。

三个排序函数的共同点与区别

函数	共同点	不同点
row_number()	用于特定场景下实现排序需求；均从1开始排序	无重复排名（相同排名的按序排名）
dense_rank()		有相同排名，但不会跳过占用的排名
rank()		有相同排名，但会跳过占用的排名

实验示例

set mapreduce.job.queuename=QueueA;

use STUDENT_DB;

--创建学生分数表

DROP TABLE IF EXISTS STUDENT_DB.SCORE_TABLE1;

CREATE TABLE IF NOT EXISTS STUDENT_DB.SCORE_TABLE1

(

    ID          STRING COMMENT '唯一ID',

    NAME        STRING COMMENT '姓名',

    SCORE       INT    COMMENT '分数',

    CLASS_NUM   STRING COMMENT '班级编号'

)

COMMENT '学生分数表'

PARTITIONED BY (pt_dt STRING)

ROW FORMAT DELIMITED FIELDS TERMINATED BY '\27'

STORED AS ORCFILE;

--向学生分数表插入数据

INSERT OVERWRITE TABLE STUDENT_DB.SCORE_TABLE1 PARTITION(pt_dt='2019-12-12') VALUES

('1', '小明', 89, '1班'),

('2', '小红', 90, '1班'),

('3', '小军', 90, '1班'),

('4', '小胖', 91, '1班'),

('5', '小李', 87, '1班'),

('6', '小郭', 99, '1班');

--创建学生分数排序结果表

DROP TABLE IF EXISTS STUDENT_DB.SCORE_RANK_TABLE1;

CREATE TABLE IF NOT EXISTS STUDENT_DB.SCORE_RANK_TABLE1

(

    ID          STRING COMMENT '唯一ID',

    NAME        STRING COMMENT '姓名',

    SCORE       INT    COMMENT '分数',

    CLASS_NUM   STRING COMMENT '班级编号',

    ROW_NUMBERS STRING COMMENT 'ROW_NUMBER排序结果',

    DENSE_RANKS STRING COMMENT 'DENSE_RANKS排序结果',

    RANKS       STRING COMMENT 'RANKS排序结果'

)

COMMENT '学生分数排序结果表'

PARTITIONED BY (pt_dt STRING)

ROW FORMAT DELIMITED FIELDS TERMINATED BY '\27'

STORED AS ORCFILE;

INSERT OVERWRITE TABLE STUDENT_DB.SCORE_RANK_TABLE1 PARTITION(pt_dt='2019-12-12')

SELECT ID,

       NAME,

       SCORE,

       CLASS_NUM,

       ROW_NUMBER() OVER(PARTITION BY CLASS_NUM ORDER BY SCORE DESC) AS ROW_NUMBERS,

       DENSE_RANK() OVER(PARTITION BY CLASS_NUM ORDER BY SCORE DESC) AS DENSE_RANKS,

       RANK() OVER(PARTITION BY CLASS_NUM ORDER BY SCORE DESC) AS RANKS

FROM STUDENT_DB.SCORE_RANK_TABLE1

WHERE pt_dt='2019-12-12';

SELECT ID,

       NAME,

       SCORE,

       CLASS_NUM,

       ROW_NUMBERS,

       DENSE_RANKS,

       RANKS,

       pt_dt

FROM STUDENT_DB.SCORE_RANK_TABLE1

WHERE pt_dt='2019-12-12';

实验结果

SCORE_RANK_TABLE1

ID	NAME	SCORE	CLASS_NUM	ROW_NUMBERS	DENSE_RANKS	RANKS	pt_dtpt_dt
6	小郭	99	1班	1	1	1	2019-12-12
4	小胖	91	1班	2	2	2	2019-12-12
3	小军	90	1班	3	3	3	2019-12-12
2	小红	90	1班	4	3	3	2019-12-12
1	小明	89	1班	5	4	5	2019-12-12
5	小李	87	1班	6	5	6	2019-12-12

如上表所示，1班的小军和小红分数均为90，当我们使用ROW_NUMBERS()进行排序时，他们的排名不会并列，而是分别有一个排名。

当我们使用DENSE_RANK()进行排序时，他们的排名会并列，且后续记录的排名会以当前并列排名为基础+1，即不会跳过被占用的位置。

当我们使用RANK()进行排名时，他们的排名会并列，且后续记录的排名会跳过被占用的排名数，而不会顺延下去。

总结

在实际开发过程中，可根据场景的需要去选择具体的排序函数。一个较为常见的场景是根据某个字段partition by之后在该范围内order by进行排序，然后取首条记录，这时候row_number()基本可以满足需求。

除此之外，排序函数均较耗性能，特别是如果对大数据量进行全局排序时，一定要考虑性能问题，非必要情况下，避免对大数据量进行全局排序。

Hive中row_number()、dense_rank()、rank()的区别的更多相关文章

SQL Server排序函数row_number和rank的区别
SQL Server排序函数row_number和rank的区别直接看测试结果 declare @table table(name varchar(100),amount int, memo var ...
MySQL 下 ROW_NUMBER / DENSE_RANK / RANK 的实现
原文链接:http://hi.baidu.com/wangzhiqing999/item/7ca215d8ec9823ee785daa2b MySQL 下 ROW_NUMBER / DENSE_RAN ...
数据库中row_number()、rank()、dense_rank() 的区别
row_number的用途非常广泛,排序最好用它,它会为查询出来的每一行记录生成一个序号,依次排序且不会重复,注意使用row_number函数时必须要用over子句选择对某一列进行排序才能生成序号. ...
oracle中row_number和rownum的区别和联系(翻译)
http://www.tuicool.com/articles/bI3IBv 附问题:有以下一个SQL语句: SELECT * FROM ( SELECT t.*, row_number() OVER ...
mysql分组排序取最大值所在行，类似hive中row_number() over partition by
如下图, 计划实现 :按照 parent_code 分组, 取组中code最大值所在的整条记录,如红色部分.(类似hive中: row_number() over(partition by)) sel ...
Oracle中row_number()、rank()、dense_rank() 的区别
link:https://www.cnblogs.com/qiuting/p/7880500.html
hive内group by取第一条数据，Hive中row_number的使用
1.hive的分组和组内排序---语法语法: row_number() over (partition by 字段a order by 计算项b desc ) rank rank是排序的别名 par ...
Hive中变量的使用
1.Hive配置属性 (1)命令行方式 Hive配置属性存储于 hiveconf 命名空间中,该命名空间中的属性是可读写的.在查询语句中插入 '${hiveconf:变量名}',就可以通过 hive ...
hive 中窗口函数row_number,rank,dense_ran,ntile分析函数的用法
hive中一般取top n时,row_number(),rank,dense_ran()这三个函数就派上用场了, 先简单说下这三函数都是排名的,不过呢还有点细微的区别. 通过代码运行结果一看就明白了. ...

随机推荐

二、YARN
一.YARN 介绍 yarn 是下一代 MapReduce,即 MRv2,是在第一代 MapReduce 基础上演变而来的,主要是为了解决原始 Hadoop 扩展性较差,不支持多计算框架而提出的,通俗 ...
终于明白了vue使用axios发送post请求时的坑及解决原理
前言:在做项目的时候正好同事碰到了这个问题,问为什么用axios在发送请求的时候没有成功,请求不到数据,反而是报错了,下图就是报错请求本尊 vue里代码如下: this.$http.post('/ge ...
P4526 【模板】自适应辛普森法2
P4526 [模板]自适应辛普森法2 #include <bits/stdc++.h> using namespace std; ; double a; inline double f(d ...
xpython操作excel之xlwt与xlrd
xlwt与xlrd只能针对xls格式的excel进行操作!!!(openpyxl操作excel) xlwt写excel # pip install xlwt下载导入xlwt写xls格式的excel操作 ...
UVA10480 Sabotage
题目链接:https://cn.vjudge.net/problem/UVA-10480 知识点: 最小割题目大意: 求最小割并打印出最小割必须割掉的边. 解题思路: 在跑完 $sap$ 后的残 ...
adb常用命令食用方法
一.什么是adb? adb是Android Debug Bridge的缩写,即安卓调试桥:那什么是安卓调试桥?简单来说,就是一个通用命令行工具,允许计算机与模拟器或连接的安卓设备之间进行通信,提供各种 ...
TP5.0验证器使用方法
比如我要在分类做一个验证器,首先要在你的后台模块先建立一个文件夹,比如我的后台模块是admin,那么你要在admin里面建立一个validate的文件夹然后再建立一个对应的php文件如下图文件里面的 ...
java后端解决跨域
1 package com.zys.boot_jeep.config; import org.springframework.context.annotation.Bean; import org.s ...
Linux服务器程序--大数据量高并发系统设计
在Linux服务器程序中,让系统能够提供以更少的资源提供更多的并发和响应效率决定了程序设计价值!怎样去实现这个目标,它其实是这么多年以来一直追逐的东西.最开始写代码时候,省去一个条件语句.用 ...
树链剖分（求LCA，第K祖先，轻重链剖分、长链剖分）
2020/4/30 15:55 树链剖分是一种十分实用的树的方法,用来处理LCA等祖先问题,以及对一棵树上的节点进行批量修改.权值和查询等有奇效. So, what is 树链剖分? 可以简单 ...