Hive函数：CUME_DIST,PERCENT

参考自：大数据田地http://lxw1234.com/archives/2015/04/185.htm

数据准备：

d1,user1,1000

d1,user2,2000

d1,user3,3000

d2,user4,4000

d2,user5,5000

CREATE EXTERNAL TABLE test_data (

dept STRING,

userid string,

sal INT

) ROW FORMAT DELIMITED

FIELDS TERMINATED BY ','

stored as textfile location '/user/jc_rc_ftp/test_data';

hive> select * from test_data;

+-----------------+-------------------+----------------+--+

| test_data.dept  | test_data.userid  | test_data.sal  |

+-----------------+-------------------+----------------+--+

| d1              | user1             | 1000           |

| d1              | user2             | 2000           |

| d1              | user3             | 3000           |

| d2              | user4             | 4000           |

| d2              | user5             | 5000           |

+-----------------+-------------------+----------------+--+

CUME_DIST

–CUME_DIST 小于等于当前值的行数/分组内总行数
–比如，统计小于等于当前薪水的人数，所占总人数的比例

SELECT

dept,

userid,

sal,

CUME_DIST() OVER(ORDER BY sal) AS rn1,

CUME_DIST() OVER(PARTITION BY dept ORDER BY sal) AS rn2

FROM test_data;

+-------+---------+-------+------+---------------------+--+

| dept  | userid  |  sal  | rn1  |         rn2         |

+-------+---------+-------+------+---------------------+--+

| d1    | user1   | 1000  | 0.2  | 0.3333333333333333  |

| d1    | user2   | 2000  | 0.4  | 0.6666666666666666  |

| d1    | user3   | 3000  | 0.6  | 1.0                 |

| d2    | user4   | 4000  | 0.8  | 0.5                 |

| d2    | user5   | 5000  | 1.0  | 1.0                 |

+-------+---------+-------+------+---------------------+--+

rn1: 没有partition,所有数据均为1组，总行数为5，

     第一行：小于等于1000的行数为1，因此，1/5=0.2

     第三行：小于等于3000的行数为3，因此，3/5=0.6

rn2: 按照部门分组，dpet=d1的行数为3,

     第二行：小于等于2000的行数为2，因此，2/3=0.6666666666666666

PERCENT_RANK

–PERCENT_RANK 分组内当前行的RANK值-1/分组内总行数-1
应用场景不了解，可能在一些特殊算法的实现中可以用到吧。

SELECT

dept,

userid,

sal,

PERCENT_RANK() OVER(ORDER BY sal) AS rn1,   --分组内

RANK() OVER(ORDER BY sal) AS rn11,          --分组内RANK值

SUM(1) OVER(PARTITION BY NULL) AS rn12,     --分组内总行数

PERCENT_RANK() OVER(PARTITION BY dept ORDER BY sal) AS rn2

FROM test_data;

+-------+---------+-------+-------+-------+-------+------+--+

| dept  | userid  |  sal  |  rn1  | rn11  | rn12  | rn2  |

+-------+---------+-------+-------+-------+-------+------+--+

| d1    | user1   | 1000  | 0.0   | 1     | 5     | 0.0  |

| d1    | user2   | 2000  | 0.25  | 2     | 5     | 0.5  |

| d1    | user3   | 3000  | 0.5   | 3     | 5     | 1.0  |

| d2    | user4   | 4000  | 0.75  | 4     | 5     | 0.0  |

| d2    | user5   | 5000  | 1.0   | 5     | 5     | 1.0  |

+-------+---------+-------+-------+-------+-------+------+--+

这样只要排序字段为null,就会放在最后，而不会影响排序结果

rn1: rn1 = (rn11-1) / (rn12-1)

       第一行,(1-1)/(5-1)=0/4=0

       第二行,(2-1)/(5-1)=1/4=0.25

       第四行,(4-1)/(5-1)=3/4=0.75

rn2: 按照dept分组，

     dept=d1的总行数为3

     第一行，(1-1)/(3-1)=0

     第三行，(3-1)/(3-1)=1

Hive函数：CUME_DIST,PERCENT_RANK的更多相关文章

hive函数参考手册
hive函数参考手册原文见:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF 1.内置运算符1.1关系运算符运 ...
Hive函数以及自定义函数讲解（UDF）
Hive函数介绍HQL内嵌函数只有195个函数(包括操作符,使用命令show functions查看),基本能够胜任基本的hive开发,但是当有较为复杂的需求的时候,可能需要进行定制的HQL函数开发. ...
大数据入门第十一天——hive详解（三）hive函数
一.hive函数 1.内置运算符与内置函数函数分类: 查看函数信息: DESC FUNCTION concat; 常用的分析函数之rank() row_number(),参考:https://www ...
Hadoop生态圈-Hive函数
Hadoop生态圈-Hive函数作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任.
Hive（四）hive函数与hive shell
一.hive函数 1.hive内置函数 (1)内容较多,见< Hive 官方文档> https://cwiki.apache.org/confluence/displ ...
Hive入门笔记---2.hive函数大全
Hive函数大全–完整版现在虽然有很多SQL ON Hadoop的解决方案,像Spark SQL.Impala.Presto等等,但就目前来看,在基于Hadoop的大数据分析平台.数据仓库中,Hiv ...
【Hive五】Hive函数UDF
Hive函数系统自带的函数查看系统自带的函数查看系统自带的函数 show functions; 显示自带的函数的用法 desc function upper; 详细显示自带的函数的用法 desc ...
Hive函数大全-完整版
现在虽然有很多SQL ON Hadoop的解决方案,像Spark SQL.Impala.Presto等等,但就目前来看,在基于Hadoop的大数据分析平台.数据仓库中,Hive仍然是不可替代的角色.尽 ...
【翻译】Flink Table Api & SQL — Hive —— Hive 函数
本文翻译自官网:Hive Functions https://ci.apache.org/projects/flink/flink-docs-release-1.9/dev/table/hive/h ...
hive函数之数学函数
hive函数之数学函数 round(double d)--返回double型d的近似值(四舍五入),返回bigint型: round(double d,int n)--返回保留double型d的n ...

随机推荐

MySQL解决方案
主从复制与主主复制怎么自动切换:使用Keepalived 日常如何导出数据:mysqldump.xtrabackup 主库宕机解决方案(一主多从) 登陆从库>show proce ...
bat脚本:windows下一键启动zookeeper+kafka
bat脚本:windows下一键启动zookeeper+kafka 把下面两行代码存为bat文件,双击执行即可.注意更改相应的目录这里用ping来控制时间(先zookeeper,ping 4 次后 ...
1-1 spring基础
1.spring是一个开源的轻量级的应用开发框架,它提供了IOC(Inversion of Control控制反转)和AOP(Aspect -Oriented Programming 面向切面编程)的 ...
redis客户端可以连接集群，但JedisCluster连接redis集群一直报Could not get a resource from the pool
一,问题描述: (如题目)通过jedis连接redis单机成功,使用JedisCluster连接redis集群一直报Could not get a resource from the pool 但是使 ...
【Python&数据结构】抽象数据类型 Python类机制和异常
这篇是<数据结构与算法Python语言描述>的笔记,但是大头在Python类机制和面向对象编程的说明上面.我也不知道该放什么分类了..总之之前也没怎么认真接触过基于类而不是独立函数的Pyt ...
Java基础学习笔记十三常用API之正则表达式、Date、DateFormat、Calendar
正则表达式正则表达式(英语:Regular Expression,在代码中常简写为regex).正则表达式是一个字符串,使用单个字符串来描述.用来定义匹配规则,匹配一系列符合某个句法规则的字符串.在 ...
I Know Alpha冲刺随笔集
Alpha冲刺 Day1 Alpha冲刺 Day2 Alpha冲刺 Day3 Alpha冲刺 Day4 Alpha冲刺 Day5 Alpha冲刺 Day6 Alpha冲刺 Day7 Alpha冲刺 D ...
alpha-咸鱼冲刺day1
一,合照 emmmmm.自然是没有的. 二,项目燃尽图三,项目进展登陆界面随意写了一下.(明天用来做测试的) 把学姐给我的模板改成了自家的个人主页界面,侧边栏啥的都弄出来了(快撒花花!) 四,问题 ...
201621123031 《Java程序设计》第12周学习总结
作业12-流与文件 1.本周学习总结 1.1 以你喜欢的方式(思维导图或其他)归纳总结多流与文件相关内容. 在Java中的java.io包中定义了许多类专门负责处理各种方式的输入与输出.其中,所有输入 ...
git中级技能
中级技能(上) 一.实验说明从本节开始,我们会介绍一些中级和高级的用法,这些用法很少用到,前面三节的内容已经满足了日常工作需要,从本节开始的内容可以简单了解,需要的时候再 ...

Hive函数：CUME_DIST,PERCENT_RANK

CUME_DIST

PERCENT_RANK

Hive函数：CUME_DIST,PERCENT_RANK的更多相关文章

随机推荐

热门专题