一、 分区函数Partition By与row_number()、rank()、dense_rank()的用法(获取分组(分区)中前几条记录)

一、数据准备

--1、创建学生成绩表
id int,  --主键
Grade int, --班级
Score int --分数
CREATE TABLE Student3(id INT, grade INT,score int)
CLUSTERED by(id) INTO 7 BUCKETS
STORED AS ORC 
tblproperties('transactional'='true');
 
insert into Student1 values(1,1,88);
insert into Student1 values(2,1,66);
insert into Student1 values(3,1,75);
insert into Student1 values(4,2,30);
insert into Student1 values(5,2,70);
insert into Student1 values(6,2,80);
insert into Student1 values(7,2,60);
insert into Student1 values(8,3,90);
insert into Student1 values(9,3,70);
insert into Student1 values(10,3,80);
insert into Student1 values(11,3,80);
 
--向普通表中入数据
CREATE TABLE Student(id INT, grade INT,score int);
INSERT INTO TABLE student SELECT * FROM student1;
SELECT * FROM Student;

二、分区函数partition by与row_number()的用法

--2、1不分班按学生成绩排名
SELECT *,row_number() over(ORDER BY score desc) assequence FROM student;

SELECT *,row_number() over(PARTITION BY grade ORDER BY score desc) AS sequence FROM student;

--2、3获取每个班的前一名
SELECT * FROM (
SELECT *,row_number() OVER(PARTITION BY grade ORDER BY score DESC) AS SEQUENCE FROM student
) squence_table WHERE squence_table.SEQUENCE<=1;

三、分区函数partition by与排序rank()的用法

--1、分班后按学生成绩排名,该语句是对分数相同的记录进行了同一排名,比如:两个80分的并列第2名,因此,第4名就没用了
SELECT *,rank() over(PARTITION BY grade ORDER BY score desc) AS SEQUENCE FROM student;
 

--2、获取每个班的前2名,该语句是对分数相同的记录进行了同一排名,例如:两个80分并列第2
SELECT * FROM (
SELECT *,rank() over(PARTITION BY grade ORDER BY score desc) AS SEQUENCE FROM student
) squence_table WHERE squence_table.SEQUENCE<=2;

三、分区函数partition by与 dense_rank()的用法
--1、分班后按学生成绩排名,该语句是对分数相同的记录进行了同一排名,比如:两个80分的并列第2名,而位列排名第4位的同学,成绩排名则从第3开始,
--如果是row_number,排名则为90-1,80-2,80-3,70-4;如果是rank()则为;90-1,80-2,80-2,70-4
--使用dense_rank()则为90-1,80-2,80-2,70-3
SELECT *,dense_rank() over(PARTITION BY grade ORDER BY score desc) AS SEQUENCE FROM student;
 

--2、获取每个班的前3名,该语句是对分数相同的记录进行同一排名
SELECT * FROM (
SELECT *,dense_rank() over(PARTITION BY grade ORDER BY score desc) AS SEQUENCE FROM student
)squence_table WHERE squence_table.SEQUENCE<=3;
 
四、窗口函数,row_number() ,rank(),dense_rank()区别

举例:同一班级下:成绩依次为90,80,80,70
row_numer()对于同一分组、相同分数的排名:比如:第一名为90,第二名80,第三名80,第四名70
rank()对于同一分组、相同分数的排名:比如:第一名为90,第二名80,80并列,第四名70,则没有第三
dense_rank()对于同一分组、相同分数的排名:比如:第一名为90,第二名为80,80并列,第三名为70

hive中一般取top n时,row_number(),rank,dense_ran()常用三个函数的更多相关文章

  1. hive 中窗口函数row_number,rank,dense_ran,ntile分析函数的用法

    hive中一般取top n时,row_number(),rank,dense_ran()这三个函数就派上用场了, 先简单说下这三函数都是排名的,不过呢还有点细微的区别. 通过代码运行结果一看就明白了. ...

  2. hive中分组取前N个值的实现

    背景 假设有一个学生各门课的成绩的表单,应用hive取出每科成绩前100名的学生成绩. 这个就是典型在分组取Top N的需求. 解决思路 对于取出每科成绩前100名的学生成绩,针对学生成绩表,根据学科 ...

  3. hive分组排序 取top N

    pig可以轻松获取TOP n.书上有例子 hive中比较麻烦,没有直接实现的函数,可以写udf实现.还有个比较简单的实现方法: 用row_number,生成排名序列号.然后外部分组后按这个序列号多虑, ...

  4. 在hive中查询导入数据表时FAILED: SemanticException [Error 10096]: Dynamic partition strict mode requires at least one static partition column. To turn this off set hive.exec.dynamic.partition.mode=nonstrict

    当我们出现这种情况时 FAILED: SemanticException [Error 10096]: Dynamic partition strict mode requires at least ...

  5. sqoop 从oracle导数据到hive中,date型数据时分秒截断问题

    oracle数据库中Date类型倒入到hive中出现时分秒截断问题解决方案 1.问题描述: 用sqoop将oracle数据表倒入到hive中,oracle中Date型数据会出现时分秒截断问题,只保留了 ...

  6. 为什么在ucos向stm32f103移植时说os_cpu_c.c中有三个函数如OS_CPU_SysTickInit()需要注释掉

    我在看os_cpu_c.c代码时对下面这段话困惑了半天总是在百度的帮助下找到了答案 /*  申明几个函数,这里要注意最后三个函数需要注释掉,为什么呢?    OS_CPU_SysTickHandler ...

  7. Hive中使用Python实现Transform时遇到Broken pipe错误排查

    Hive中有一表,列分隔符为冒号(:),有一列utime是Timestamp格式,需要转成Weekday存到新表. 利用Python写一个Pipeline的Transform,weekday.py的代 ...

  8. SQL Server 分组取 Top 笔记(row_number + over 实现)

    先看SQL语句(注意:这是在SQL Server 2005+ [包括2005] 的版本才支持的哦,o(∩_∩)o 哈哈~) SELECT col1,col2,col3 FROM table1 AS a ...

  9. 从m个数中取top n

    将题目具体一点,例如,从100个数中取出从大到小排前10的数 方法1:使用快速排序 因为快速排序一趟下来,小于K的数都在K的前面,大于K的数都在K的后面 如果,小于K的数有35个,大于K的数有64个 ...

随机推荐

  1. PyQt(Python+Qt)学习随笔:QListView的itemAlignment属性

    老猿Python博文目录 专栏:使用PyQt开发图形界面Python应用 老猿Python博客地址 QListView的itemAlignment属性用于控制每个数据项的对齐方式,其类型为枚举类Qt. ...

  2. [ACTF2020 新生赛]BackupFile && [ACTF2020 新生赛]Upload &&[GYCTF2020]Blacklist

    [ACTF2020 新生赛]BackupFile 尝试找到源代码,加上题目是备份文件,猜测备份文件里面有网站的源代码,御剑扫描一下,就扫到index.php 访问index.php.bak 下载源代码 ...

  3. web安全漏洞

    1.什么是Web漏洞 WEB漏洞通常是指网站程序上的漏洞,可能是由于代码编写者在编写代码时考虑不周全等原因而造成的漏洞.如果网站存在WEB漏洞并被黑客攻击者利用,攻击者可以轻易控制整个网站,并可进一步 ...

  4. python基本案例实现

    案例一:test.txt文件中与输入的用户进行认证,超过3次用户被锁定,且把用户加入锁定的lock.txt文件中. # 需求点: # 1.输入用户名.密码 # 2.认证成功后显示欢迎信息 # 3.输错 ...

  5. python-列表list和元组tuple

    list Python内置的一种数据类型是列表:list.list是一种有序的集合,可以随时添加和删除其中的元素. 比如,列出班里所有同学的名字,就可以用一个list表示: >>> ...

  6. pandas 删除列

    ddf = pd.DataFrame({"id":[1,2,3], "name":[4,5,6],"age":[7,8,9]})ddf = ...

  7. C# operator 关键字的用法

    operator 只要是运算符都能重载 operator 关键字的主要作用是用来重载运算符的,还可以用于类或结构中类型的自定义转换. 下面看个例子 class Feige { //定义两个全局变量 i ...

  8. 计算机语言与JAVA的发展

    计算机语言与JAVA的发展 第一代语言 2进制 第二代语言 汇编语言 解决人类无法读懂的问题 指令替代二进制 目前应用 逆向工程 机器人 病毒 第三代语言 摩尔定律 性能提升愈来愈慢 高级语言 面向过 ...

  9. C# 9.0中引入的新特性init和record的使用思考

    写在前面 .NET 5.0已经发布,C# 9.0也为我们带来了许多新特性,其中最让我印象深刻的就是init和record type,很多文章已经把这两个新特性讨论的差不多了,本文不再详细讨论,而是通过 ...

  10. [水题日常]UVA1639 糖果(Candy,ACM/ICPC Chengdu 2012)

    今天来尝试了几道数学期望相关的题,这是我认为比较有趣的一道题 这次不废话啦直接开始~ 一句话题意:两个分别装有n个糖果的盒子,每次随机选一个盒子然后拿走一颗糖(选的概率分别是\(p\)和\((1-p) ...