hive 排序分组计数后排序几种不同函数的效果

【转至：http://blackproof.iteye.com/blog/2164260】

总结：

三个分析函数都是按照col1分组内从1开始排序

(假设4个数，第2和第3个数据相同）
    row_number() 是没有重复值的排序(即使两天记录相等也是不重复的)，可以利用它来实现分页比如：1、2、3,4
    dense_rank() 是连续排序，两个第二名仍然跟着第三名：比如：1,2,2,3
    rank()       是跳跃拍学，两个第二名下来就是第四名: 比如：1,2,2,4

自从hive 0.11.0 开始，加入了类似orcle的分析函数，很强大，可以查询到分组排序top值

使用方法跟oracle没有差别

贴个小例子

查询的是同一个操作下pv前十的用户

select
*
,row_number() OVER(PARTITION BY t3.action ORDER BY pv desc) AS flag
from
(
select
action
,uuid
,count(1) as pv
from logtable t
group by t.action,uuid
) t1
where t1.flag<=10

贴一个oracle rank的帖子

rank,dense_rank,row_number区别

一：语法(用法)：
     rank() over([partition by col1] order by col2)
     dense_rank() over([partition by col1] order by col2)
     row_number() over([partition by col1] order by col2)
     其中[partition by col1]可省略。

二：区别
    三个分析函数都是按照col1分组内从1开始排序

    row_number() 是没有重复值的排序(即使两天记录相等也是不重复的)，可以利用它来实现分页
    dense_rank() 是连续排序，两个第二名仍然跟着第三名
    rank()       是跳跃拍学，两个第二名下来就是第四名

    理论就不多讲了，看了案例，一下就明白了

SQL> create table t(
2   name varchar2(10),
3   score number(3));

Table created

SQL> insert into t(name,score)
2   select '语文',60 from dual union all
3   select '语文',90 from dual union all
4   select '语文',80 from dual union all
5   select '语文',80 from dual union all
6   select '数学',67 from dual union all
7   select '数学',77 from dual union all
8   select '数学',78 from dual union all
9   select '数学',88 from dual union all
10   select '数学',99 from dual union all
11   select '语文',70 from dual
12 /

10 rows inserted

SQL> select * from t;

NAME       SCORE
---------- -----
语文          60
语文          90
语文          80
语文          80
数学          67
数学          77
数学          78
数学          88
数学          99
语文          70

10 rows selected

SQL> select name,score,rank() over(partition by name order by score) tt from t;

NAME       SCORE         TT
---------- ----- ----------
数学          67          1
数学          77          2
数学          78          3
数学          88          4
数学          99          5
语文          60          1
语文          70          2
语文          80          3   <----
语文          80          3   <----
语文          90          5

10 rows selected

SQL> select name,score,dense_rank() over(partition by name order by score) tt from t;

NAME       SCORE         TT
---------- ----- ----------
数学          67          1
数学          77          2
数学          78          3
数学          88          4
数学          99          5
语文          60          1
语文          70          2
语文          80          3   <----
语文          80          3   <----
语文          90          4

10 rows selected

SQL> select name,score,row_number() over(partition by name order by score) tt from t;

NAME       SCORE         TT
---------- ----- ----------
数学          67          1
数学          77          2
数学          78          3
数学          88          4
数学          99          5
语文          60          1
语文          70          2
语文          80          3 <----
语文          80          4 <----
语文          90          5

10 rows selected

SQL> select name,score,rank() over(order by score) tt from t;

NAME       SCORE         TT
---------- ----- ----------
语文          60          1
数学          67          2
语文          70          3
数学          77          4
数学          78          5
语文          80          6
语文          80          6
数学          88          8
语文          90          9
数学          99         10

10 rows selected

大家应该明白了吧！呵呵！接下来看应用

一：dense_rank------------------查询每门功课前三名

select name,score from (select name,score,dense_rank() over(partition by name order by score desc) tt from t) x where x.tt<=3


NAME       SCORE
---------- -----
数学          99
数学          88
数学          78
语文          90
语文          80
语文          80

6 rows selected

二:rank------------------语文成绩70分的同学是排名第几。
   select name,score,x.tt from (select name,score,rank() over(partition by name order by score desc) tt from t) x where x.name='语文' and x.score=70

NAME       SCORE         TT
---------- ----- ----------
语文          70          4

三：row_number——————分页查询
     select xx.* from (select t.*,row_number() over(order by score desc) rowno from t) xx where xx.rowno between 1 and 3;

NAME       SCORE      ROWNO
---------- ----- ----------
数学          99          1
语文          90          2
数学          88          3

hive 排序分组计数后排序几种不同函数的效果的更多相关文章

mysql特殊查询----分组后排序
使用的示例表学生表----student 表结构数据查询方法一.第一种方法我认为这是比较传统,比较容易理解的一种方式,使用自连接,并在连接条件中作比较,之后再对查询条件分组统计,排序. se ...
排序（分组后排序&整排）
一.整排要求:根据score进行排名,分数相同,名次相同,且连续表如下图: sql语句: 方法一:select a.score, (select count(distinct b.score) f ...
JavaScript 数据结构与算法之美 - 桶排序、计数排序、基数排序
1. 前言算法为王. 想学好前端,先练好内功,只有内功深厚者,前端之路才会走得更远. 笔者写的 JavaScript 数据结构与算法之美系列用的语言是 JavaScript ,旨在入门数据结构与算 ...
Hadoop日记Day18---MapReduce排序分组
本节所用到的数据下载地址为:http://pan.baidu.com/s/1bnfELmZ MapReduce的排序分组任务与要求我们知道排序分组是MapReduce中Mapper端的第四步,其中分 ...
归并排序 & 计数排序 & 基数排序 & 冒泡排序 & 选择排序 ----> 内部排序性能比较
2.3 归并排序接口定义: int merge(void* data, int esize, int lpos, int dpos, int rpos, int (*compare)(const v ...
排序算法的C语言实现(下线性时间排序：计数排序与基数排序)
计数排序计数排序是一种高效的线性排序. 它通过计算一个集合中元素出现的次数来确定集合如何排序.不同于插入排序.快速排序等基于元素比较的排序,计数排序是不需要进行元素比较的,而且它的运行效率要比效率为 ...
第17课-数据库开发及ado.net 聚合函数,模糊查询like,通配符.空值处理.order by排序.分组group by-having.类型转换-cast,Convert.union all; Select 列 into 新表;字符串函数;日期函数
第17课-数据库开发及ado.net 聚合函数,模糊查询like,通配符.空值处理.order by排序.分组group by-having.类型转换-cast,Convert.union all; ...
es聚合后排序
注意: es版本至少6.1以上语句: GET 76/sessions/_search { "size": 0, "query": { "bool&q ...
【mysql】关联查询_子查询_排序分组优化
1. 关联查询优化 1.1 left join 结论: ①在优化关联查询时,只有在被驱动表上建立索引才有效! ②left join 时,左侧的为驱动表,右侧为被驱动表! 1.2 inner join ...

随机推荐

Getting Physical With Memory.CPU如何操作内存
原文标题:Getting Physical With Memory 原文地址:http://duartes.org/gustavo/blog/ [注:本人水平有限,只好挑一些国外高手的精彩文章翻译一下 ...
RecyclerView实现ViewPager效果；
看代码就好了,RecyclerView实现Viewpager的效果,添加了界面的改变监听,用法和普通的RecyclerView一样,还可以设置一次滑动多个界面: public class VpRecy ...
大小端,memcpy和构造函数
问题:memcpy一段内存到std::bitset里,bitset里的内存数据和被拷贝的内存数据对应不上代码如下: #include <iostream> #include <bi ...
HBase中无法使用backspace删除
转载自:Hbase命令行无法删除的问题在HBase的shell命令行界面输入错误项按"退格键"删除,却怎么也删除不了: 解决办法: 第一步,修改SecureCRT的设置参数: 第 ...
IntelliJ IDEA 添加junit插件
一.使用idea做junit测试需要添加junit插件 1.安装插件 File-->settings-->Plguins-->Browse repositories-->输入J ...
CentOS修改locale解决调用API乱码问题
查看所有的locale语言 locale 查看当前操作系统使用的语言 echo $LANG 永久设置系统locale语言 vi /etc/profile LANG="zh_CN.UTF-8& ...
使用mondorescue将本机linux centos 7服务器制作成光盘
https://blog.csdn.net/wuxianfeng1987/article/details/78059618 没试重新封装linux系统成iso文件 https://zhidao. ...
node.js 发送邮件
var nodemailer = require('nodemailer'); var smtpTransport = require('nodemailer-smtp-transport'); // ...
Java的反射机制与泛型擦除
实现方式反编译:.class–>.java 通过反射机制访问java对象的属性,方法,构造方法等涉及类 java.lang.Class; java.lang.reflect.Construct ...
jeecg好用吗，看看大家的评价
大家都会有个疑问,jeecg好用吗? 看看大家的评价

hive 排序 分组计数后排序 几种不同函数的效果

hive 排序 分组计数后排序 几种不同函数的效果的更多相关文章

随机推荐

热门专题

hive 排序分组计数后排序几种不同函数的效果

hive 排序分组计数后排序几种不同函数的效果的更多相关文章