hive的窗口函数ntile、row

一、ntile

序列函数不支持window子句

数据准备：

cookie1,--,

cookie1,--,

cookie1,--,

cookie1,--,

cookie1,--,

cookie1,--,

cookie1,--,

cookie2,--,

cookie2,--,

cookie2,--,

cookie2,--,

cookie2,--,

cookie2,--,

cookie2,--,

把数据load到表中

hive (default)> select * from cookie;

OK

cookie.cookieid    cookie.createtime    cookie.pv

cookie1    --

cookie1    --

cookie1    --

cookie1    --

cookie1    --

cookie1    --

cookie1    --

cookie2    --

cookie2    --

cookie2    --

cookie2    --

cookie2    --

cookie2    --

cookie2    --

Time taken: 0.086 seconds, Fetched:  row(s)

NTILE(n)，用于将分组数据按照顺序切分成n片，返回当前切片值
NTILE不支持ROWS BETWEEN，比如 NTILE(2) OVER(PARTITION BY cookieid ORDER BY createtime ROWS BETWEEN 3 PRECEDING AND CURRENT ROW)
如果切片不均匀，默认增加第一个切片的分布

select cookieid,createtime,pv,

ntile(2) over(partition by cookieid order by createtime) as rn1,--分组内将数据分为2片

ntile(3) over(partition by cookieid order by createtime) as rn2,--分组内将数据分为3片

ntile(4) over(order by createtime) as rn3

from cookie order by cookieid,createtime;

结果是：

OK

cookieid    createtime    pv    rn1    rn2    rn3

cookie1        2015-04-10    1    1    1    1

cookie1        2015-04-11    5    1    1    1

cookie1        2015-04-12    7    1    1    2

cookie1        2015-04-13    3    1    2    2

cookie1        2015-04-14    2    2    2    3

cookie1        2015-04-15    4    2    3    4

cookie1        2015-04-16    4    2    3    4

cookie2        2015-04-10    2    1    1    1

cookie2        2015-04-11    3    1    1    1

cookie2        2015-04-12    5    1    1    2

cookie2        2015-04-13    6    1    2    2

cookie2        2015-04-14    3    2    2    3

cookie2        2015-04-15    9    2    3    3

cookie2        2015-04-16    7    2    3    4

Time taken: 76.302 seconds, Fetched: 14 row(s)

比如，统计一个cookie，pv数最多的前1/3的天

select cookieid,createtime,pv,

ntile(3) over(partition by cookieid order by pv desc) as rn

from cookie;

结果是：

OK

cookieid    createtime    pv    rn

cookie1        2015-04-12    7    1

cookie1        2015-04-11    5    1

cookie1        2015-04-16    4    1

cookie1        2015-04-15    4    2

cookie1        2015-04-13    3    2

cookie1        2015-04-14    2    3

cookie1        2015-04-10    1    3

cookie2        2015-04-15    9    1

cookie2        2015-04-16    7    1

cookie2        2015-04-13    6    1

cookie2        2015-04-12    5    2

cookie2        2015-04-11    3    2

cookie2        2015-04-14    3    3

cookie2        2015-04-10    2    3

Time taken: 22.654 seconds, Fetched: 14 row(s)

rn=1就是我们想要的结果

二、ROW_NUMBER

ROW_NUMBER()–从1开始，按照顺序，生成分组内记录的序列
–比如，按照pv降序排列，生成分组内每天的pv名次
ROW_NUMBER() 的应用场景非常多，再比如，获取分组内排序第一的记录;获取一个session中的第一条refer等。

select cookieid,createtime,pv,

row_number() over(partition by cookieid order by pv desc) as rn

from cookie;

结果：

OK

cookieid    createtime    pv    rn

cookie1    2015-04-12    7    1

cookie1    2015-04-11    5    2

cookie1    2015-04-16    4    3

cookie1    2015-04-15    4    4

cookie1    2015-04-13    3    5

cookie1    2015-04-14    2    6

cookie1    2015-04-10    1    7

cookie2    2015-04-15    9    1

cookie2    2015-04-16    7    2

cookie2    2015-04-13    6    3

cookie2    2015-04-12    5    4

cookie2    2015-04-11    3    5

cookie2    2015-04-14    3    6

cookie2    2015-04-10    2    7

Time taken: 22.657 seconds, Fetched: 14 row(s)

三、rank和dense_rank

—RANK() 生成数据项在分组中的排名，排名相等会在名次中留下空位
—DENSE_RANK() 生成数据项在分组中的排名，排名相等会在名次中不会留下空位

select cookieid,createtime,pv,

rank() over(partition by cookieid order by pv desc) as rn1,

dense_rank() over(partition by cookieid order by pv desc) as rn2,

row_number() over(partition by cookieid order by pv desc) as rn3

from cookie

where cookieid='cookie1';

结果：

OK

cookieid    createtime    pv    rn1    rn2    rn3

cookie1    2015-04-12    7    1    1    1

cookie1    2015-04-11    5    2    2    2

cookie1    2015-04-16    4    3    3    3

cookie1    2015-04-15    4    3    3    4

cookie1    2015-04-13    3    5    4    5

cookie1    2015-04-14    2    6    5    6

cookie1    2015-04-10    1    7    6    7

Time taken: 23.841 seconds, Fetched: 7 row(s)

rn1: 15号和16号并列第3, 13号排第5
rn2: 15号和16号并列第3, 13号排第4
rn3: 如果相等，则按记录值排序，生成唯一的次序，如果所有记录值都相等，或许会随机排吧。

hive的窗口函数ntile、row_number、rank的更多相关文章

Hive学习之路（十四）Hive分析窗口函数(二) NTILE,ROW_NUMBER,RANK,DENSE_RANK
概述本文中介绍前几个序列函数,NTILE,ROW_NUMBER,RANK,DENSE_RANK,下面会一一解释各自的用途. 注意: 序列函数不支持WINDOW子句.(ROWS BETWEEN) 数据 ...
Hive（七）Hive分析窗口函数
一数据准备 cookie1,2015-04-10,1 cookie1,2015-04-11,5 cookie1,2015-04-12,7 cookie1,2015-04-13,3 cookie1,20 ...
hive 中窗口函数row_number,rank,dense_ran,ntile分析函数的用法
hive中一般取top n时,row_number(),rank,dense_ran()这三个函数就派上用场了, 先简单说下这三函数都是排名的,不过呢还有点细微的区别. 通过代码运行结果一看就明白了. ...
知方可补不足~row_number,rank,dense_rank,ntile排名函数的用法
回到目录这篇文章介绍SQL中4个很有意思的函数,我称它的行标函数,它们是row_number,rank,dense_rank和ntile,下面分别进行介绍. 一 row_number:它为数据表加一 ...
ROW_NUMBER()/RANK()/DENSE_RANK()/ntile() over()
ROW_NUMBER()/RANK()/DENSE_RANK()/ntile() over() 今天女票问我SqlServer的四种排序,当场写了几句Sql让她了解,现把相关Sql放上来. 首先, ...
SQL Server - 四种排序, ROW_NUMBER() /RANK() /DENSE_RANK() /ntile() over()
>>>>英文版 (更简洁易懂)<<<< 转载自:https://dzone.com/articles/difference-between-rownum ...
SQL Server中排名函数row_number,rank,dense_rank,ntile详解
SQL Server中排名函数row_number,rank,dense_rank,ntile详解从SQL SERVER2005开始,SQL SERVER新增了四个排名函数,分别如下:1.row_n ...
hive中一般取top n时，row_number(),rank,dense_ran()常用三个函数
一. 分区函数Partition By与row_number().rank().dense_rank()的用法(获取分组(分区)中前几条记录) 一.数据准备 --1.创建学生成绩表 id int, ...
【Hadoop离线基础总结】hive的窗口函数
hive的窗口函数概述 hive中一般求取TopN时就需要用到窗口函数专业窗口函数一般有三个 rank() over dense rank() over row_number() over 实例 ...

随机推荐

powershell网络钓鱼获取用户密码
1.powershell网络钓鱼脚本: https://raw.githubusercontent.com/enigma0x3/Invoke-LoginPrompt/master/Invoke-Log ...
HTTP ------ connection 为 close 和 keep-alive 的区别
keep-alive和close这个要从TCP握手讲起 HTTP请求是基于TCP连接的,TCP的请求会包含(三次握手,中间请求,四次挥手)在HTTP/1.0时代,一个HTTP请求就要三次握手和四次挥手 ...
[吴恩达机器学习笔记]13聚类K-means
13.聚类觉得有用的话,欢迎一起讨论相互学习~Follow Me 13.1无监督学习简介从监督学习到无监督学习在一个典型的监督学习中,我们有一个有标签的训练集,我们的目标是找到能够区分正样本和负 ...
HBase基本操作-Java实现
创建Table public static void createTable(String tableName){ try { HBaseAdmin hbaseAdmin = new HBaseAdm ...
HDU 6199 DP 滚动数组
强行卡内存这题在CF上好像有道极相似的题可以想到状态设计为dp[f][i][k]表示f在取完i-1时,此时可以取k个或k+1个的状态下的最大值.之前以为n是1e5,自己想不到怎么设计状态真的辣鸡, ...
Python学习笔记（2.1）函数参数练习
关键字参数和命名关键字参数 # -*- coding: utf-8 -*- def print_scores(**kw): print(' Name Score') print('-------- ...
【BZOJ】3238: [Ahoi2013]差异
[题意]给定长度为n的小写字母字符串,令Ti表示以i开头的后缀,求Σ[Ti+Tj-2*lcp(Ti,Tj)],1<=i<j<=n. [算法]后缀自动机 [题解]Σ(Ti+Tj)只与n ...
mysql查询日期相关的
今天 select * from 表名 where to_days(时间字段名) = to_days(now()); 昨天 SELECT * FROM 表名 WHERE TO_DAYS( NOW( ) ...
sylk文件
症状:excel表出现提示:sylk文件...导致excel表不可读取原因:文件内容有“ ID ” 字段,估计是固定的识别“ID”或“ID_XXXX” 修改方法:将ID中的任意字母换成小写即可转载 ...
2017ACM暑期多校联合训练 - Team 6 1008 HDU 6103 Kirinriki （模拟尺取法）
题目链接 Problem Description We define the distance of two strings A and B with same length n is disA,B= ...

hive的窗口函数ntile、row_number、rank

hive的窗口函数ntile、row_number、rank的更多相关文章

随机推荐

热门专题