hive的窗口函数cume_dist、fercent

一、cume_dist

这两个序列分析函数不是很常用，这里也介绍一下。
注意：序列函数不支持WINDOW子句。

数据准备:

d1,user1,1000

d1,user2,2000

d1,user3,3000

d2,user4,4000

d2,user5,5000

创建表并加载数据

create external table user(

dept string,

userid string,

sal int

)

row format delimited

fields terminated by ','

stored as textfile

location '/testuser';

验证数据：

hive (default)> select * from user;

OK

user.dept    user.userid    user.sal

d1    user1    1000

d1    user2    2000

d1    user3    3000

d2    user4    4000

d2    user5    5000

Time taken: 0.341 seconds, Fetched: 5 row(s)

CUME_DIST
–CUME_DIST 小于等于当前值的行数/分组内总行数
–比如，统计小于等于当前薪水的人数，所占总人数的比例

select dept,userid,sal,

cume_dist() over(order by sal) as rn1,

cume_dist() over(partition by dept order by sal) as rn2

from user;

OK

dept    userid    sal    rn1    rn2

d1    user1    1000    0.2    0.3333333333333333

d1    user2    2000    0.4    0.6666666666666666

d1    user3    3000    0.6    1.0

d2    user4    4000    0.8    0.5

d2    user5    5000    1.0    1.0

Time taken: 3.931 seconds, Fetched: 5 row(s)

rn1: 没有partition,所有数据均为1组，总行数为5，
第一行：小于等于1000的行数为1，因此，1/5=0.2
第三行：小于等于3000的行数为3，因此，3/5=0.6
rn2: 按照部门分组，dpet=d1的行数为3,
第二行：小于等于2000的行数为2，因此，2/3=0.6666666666666666

二、percent_rank

–PERCENT_RANK 分组内当前行的RANK值-1/分组内总行数-1
应用场景不了解，可能在一些特殊算法的实现中可以用到吧。–PERCENT_RANK 分组内当前行的RANK值-1/分组内总行数-1
应用场景不了解，可能在一些特殊算法的实现中可以用到吧。

SELECT

dept,

userid,

sal,

PERCENT_RANK() OVER(ORDER BY sal) AS rn1,   --分组内

RANK() OVER(ORDER BY sal) AS rn11,          --分组内RANK值

SUM(1) OVER(PARTITION BY NULL) AS rn12,     --分组内总行数

PERCENT_RANK() OVER(PARTITION BY dept ORDER BY sal) AS rn2

FROM user;

dept    userid   sal    rn1    rn11     rn12    rn2

d1      user1   1000    0.0     1       5       0.0

d1      user2   2000    0.25    2       5       0.5

d1      user3   3000    0.5     3       5       1.0

d2      user4   4000    0.75    4       5       0.0

d2      user5   5000    1.0     5       5       1.0

rn1: rn1 = (rn11-1) / (rn12-1)
第一行,(1-1)/(5-1)=0/4=0
第二行,(2-1)/(5-1)=1/4=0.25
第四行,(4-1)/(5-1)=3/4=0.75
rn2: 按照dept分组，
dept=d1的总行数为3
第一行，(1-1)/(3-1)=0
第三行，(3-1)/(3-1)=1

hive的窗口函数cume_dist、fercent_rank的更多相关文章

Hive分析窗口函数(一) SUM,AVG,MIN,MAX
Hive分析窗口函数(一) SUM,AVG,MIN,MAX Hive分析窗口函数(一) SUM,AVG,MIN,MAX Hive中提供了越来越多的分析函数,用于完成负责的统计分析.抽时间将所有的分析窗 ...
【Hadoop离线基础总结】hive的窗口函数
hive的窗口函数概述 hive中一般求取TopN时就需要用到窗口函数专业窗口函数一般有三个 rank() over dense rank() over row_number() over 实例 ...
Hive学习之路（十五）Hive分析窗口函数(三) CUME_DIST和PERCENT_RANK
这两个序列分析函数不是很常用,这里也练习一下. 数据准备数据格式 cookie3.txt d1,user1, d1,user2, d1,user3, d2,user4, d2,user5, 创建表 ...
Hive函数：CUME_DIST,PERCENT_RANK
参考自:大数据田地http://lxw1234.com/archives/2015/04/185.htm 数据准备: d1,user1, d1,user2, d1,user3, d2,user4, d ...
hive之窗口函数
窗口函数 1．相关函数说明 COVER():指定分析函数工作的数据窗口大小,这个数据窗口大小可能会随着行的变而变化 CURRENT ROW:当前行 n PRECEDING:往前n行数据 n FOLLO ...
hive的窗口函数1
Hive中提供了越来越多的分析函数,用于完成负责的统计分析.抽时间将所有的分析窗口函数理一遍,将陆续发布.今天先看几个基础的,SUM.AVG.MIN.MAX.用于实现分组内所有和连续累积的统计. 1. ...
【Hive】窗口函数
我们都知道在sql中有一类函数叫做聚合函数,例如sum().avg().max()等等, 这类函数可以将多行数据按照规则聚集为一行,一般来讲聚集后的行数是要少于聚集前的行数的. 但是有时我们想要既显示 ...
hive 中窗口函数row_number,rank,dense_ran,ntile分析函数的用法
hive中一般取top n时,row_number(),rank,dense_ran()这三个函数就派上用场了, 先简单说下这三函数都是排名的,不过呢还有点细微的区别. 通过代码运行结果一看就明白了. ...
Hive（七）Hive分析窗口函数
一数据准备 cookie1,2015-04-10,1 cookie1,2015-04-11,5 cookie1,2015-04-12,7 cookie1,2015-04-13,3 cookie1,20 ...

随机推荐

Linux内核分析第七周———可执行程序的装载
Linux内核分析第七周---可执行程序的装载李雪琦+原创作品转载请注明出处 + <Linux内核分析>MOOC课程http://mooc.study.163.com/course/US ...
Linux HugePage 特性
HugePage,就是指的大页内存管理方式.与传统的4kb的普通页管理方式相比,HugePage为管理大内存(8GB以上)更为高效.本文描述了什么是HugePage,以及HugePage的一些特性. ...
如何将html5程序打包成Android应用
问题分析: html5网站主要由html+css+js的形式组成,需要使用浏览器进行展现. Android需要使用Java语言来开发,对于前端工程师来说,无疑是增加了很大的难度. 随后出现了很多打包工 ...
python---Scrapy模块的使用（二）
出处:http://www.cnblogs.com/wupeiqi/ 一:去除重复URL scrapy默认使用 scrapy.dupefilter.RFPDupeFilter 进行去重,相关配置有: ...
Debian sudo自动补全
解决 debian sudo TAB 键不能自动补全命令的原因一般情况,命令行输入 sudo apt-get ins 按 tab ,它后面会自动补全为 install 如果右面写了包的名的一部分,按 ...
Linux type命令的用法
一般情况下,type命令被用于判断另外一个命令是否是内置命令,但是它实际上有更多的用法. 1.判断一个名字当前是否是alias.keyword.function.builtin.file或者什么都不是 ...
Git同时push到多个远程仓库
添加第二个远程地址时使用以下命令: git remote set-url --add origin git@github.com:morethink/programming.git 查看远程分支:gi ...
display:inline-block之用法
HTML的元素有多种display属性,比较常见的有display:none; display:block; display:inline和display:inline-block;等.详细可参阅W3 ...
JSON 为王，为什么 XML 会慢慢淡出人们的视野？
目前全球信息基础设施的特点是,拥有大量的数据交换格式.这一点也不奇怪.互联网几乎已经老了,而“物联网”及“大数据”正从概念走进现实.但我仍然相信,在这一领域还有一股较强的历史趋势,推动 JSON 数据 ...
你知道吗？衡量 Web 性能的几个关键指标
自网站诞生以来,响应速度/响应时间一直都是大家关心的话题,而速度慢乃是网站的一个杀手,正当大家以为四核和宽带能力的提升能够解决这些问题时,Wi-Fi和移动设备为热点移动互联网又悄然兴起. 在2006年 ...

hive的窗口函数cume_dist、fercent_rank

hive的窗口函数cume_dist、fercent_rank的更多相关文章

随机推荐

热门专题