hive分组排序取top N

pig可以轻松获取TOP n。书上有例子

hive中比较麻烦，没有直接实现的函数，可以写udf实现。还有个比较简单的实现方法：

用row_number，生成排名序列号。然后外部分组后按这个序列号多虑，样例代码如下

select a.*

from(

    select 品牌,渠道,档期,count/sum/其它() as num row_number() over (partition by 品牌,渠道 order by num desc ) rank

    from table_name

    where 品牌,渠道 限制条件

    group by 品牌,渠道,档期

    )a

where a.rank<=10

其实排序有三个函数

（1）row_number：排序后，顺序下来，相同项按先后顺序排序，1，2，3，4，5

（2）rank:排序后，遇到数据相同项时序号一致，后面并留空一位，比如，1，2，2，4，4，6

dense_rank:在遇到数据相同项时,序号一致，不留空位，如 1，2，2，3,3,4,4,5

具体用例可以参见：http://www.cnblogs.com/dycg/p/4260283.html

我自己设计的代码

##统计国内，各省份的城市排名

select b.*

from

(select country,

    province,

    city,

    cnt,

    row_number() over (partition by country,province order by cnt desc) rank

from

    (select country,

            province,

            city,

            count(1) as cnt

    from tb_pmp_region_report_hive_mapping

    where country = '中国'

    group by country,province,city

    ) a

)b

where b.rank<=3

表a统计出基本数据，从a中加排名项。然后，按排名项过滤。内部group后，外部不需要group by

需要注意的是，加排名项时，不应该使用group。

如果有group，那么row_number中的order by项必须是group内的字段，否则报错，如下段代码报错

select b.*

from

(select country,

    province,

    city,

    cnt,

    row_number() over (partition by country,province order by cnt desc) rank

from

    (select country,

            province,

            city,

            count(1) as cnt

    from tb_pmp_region_report_hive_mapping

    where country = '中国'

    group by country,province,city

    ) a

    group by country,province,city

)b

where b.rank<=3

执行报错：

FAILED: SemanticException Failed to breakup Windowing invocations into Groups. At least 1 group must only depend on input columns. Also check for circular dependencies.

Underlying error: org.apache.hadoop.hive.ql.parse.SemanticException: Line 7:62 Expression not in GROUP BY key ‘cnt’

hive>

hive分组排序取top N的更多相关文章

SQL之分组排序取top n
转自:http://blog.csdn.net/wguangliang/article/details/50167283 要求:按照课程分组,查找每个课程最高的两个成绩. 数据文件如下: 第一列no为 ...
sql分组排序取top
写法1: use anypay; select tr.* from (select task_code, max(created_at) as cal from task_log group by t ...
SQL Server 分组后取Top N
SQL Server 分组后取Top N(转) 近日,工作中突遇一需求:将一数据表分组,而后取出每组内按一定规则排列的前N条数据.乍想来,这本是寻常查询,无甚难处.可提笔写来,终究是困住了笔者好一会儿 ...
hive 分组排序，topN
hive 分组排序,topN 语法格式:row_number() OVER (partition by COL1 order by COL2 desc ) rankpartition by:类似hiv ...
mysql分组排序取最大值所在行，类似hive中row_number() over partition by
如下图, 计划实现 :按照 parent_code 分组, 取组中code最大值所在的整条记录,如红色部分.(类似hive中: row_number() over(partition by)) sel ...
mysql 分组排序取最值
查各个用户下单最早的一条记录查各个用户下单最早的前两条记录查各个用户第二次下单的记录一.建表填数据: SET NAMES utf8mb4; -- 取消外键约束 ; -- ------------ ...
Hive分组后取组内排名方法row_number
今天遇到这样一个需求场景,要取出每一种分类(a,b组合分类) 符合条件的日期(字段c) 距离现在最近的10个日期的数据首先想到的是用sql筛选出符合某种条件的所有数据,这样的事情很简单然后用脚 ...
关于oracle分组排序取值的问题
按照某字段分组某字段排序然后取出该分组中排第1条数据(每组只取一条) SELECT* FROM( SELECT a.*,row_number() over(partition by ORI_FE ...
hive 分组排序函数 row_number() over(partition by " " order by " "desc
语法:row_number() over (partition by 字段a order by 计算项b desc ) rank --这里rank是别名 partition by:类似hive的建表, ...

随机推荐

在Linux（ubuntu 14.04）上部署WeX5跨平台App（HTML5）
1. 前言这篇文章讲述的是把毕业设计的用 WeX5 开发的项目部署到阿里云的Linux(ubuntu14.04)上,本来可以部署在WeX5自带的服务器上,但是WeX5的服务器我以前部署的项目突然 ...
[USACO 03FEB]Farm Tour
Description When FJ's friends visit him on the farm, he likes to show them around. His farm comprise ...
灰狼呼唤着同胞(brethren)
先求出确定边的联通块,有cnt块,显然方案数为2^(cnt-1) 联通块用dfs很好求但此题还有并查集解法,且与一道叫团伙的题很像边为0为敌人,1为朋友,敌人的敌人是朋友,朋友的朋友是朋友,正好对 ...
【网络流】【BZOJ1001】狼抓兔子
继续网络流的学习.... 题意简析:就是给你张图,叫你求最小割. 解题思路:最小割=最大流,按题意见图跑一次就好了. 附代码: #include<cstdio> #include<i ...
[LSGDOJ 1299]搭配买卖
题目描述 joe觉得云朵很美,决定去山上的商店买一些云朵.商店里有n多云,云朵被编号为1,2,……,n,并且每朵云都有一个价值.但商店老板跟他说,一些云朵要搭配来买才好,所以买一朵云则与这多云有搭配的 ...
vim配置文件和插件管理
本文通过总结零碎的资料总结而成,更多是去引导学习vim配置文件及插件使用. .vimrc配置文件,内容如下(备注清晰) "引入插件pathogen使用 execute pathogen#in ...
Python中dict的功能介绍
Dict的功能介绍 1. 字典的两种函数(方法) 1. 字典的内置函数包含关系格式:x.__contains__(key)等同于key in x 例如:dic = {'ab':23,'cd':34 ...
box-sizing position
box-sizing 属性用于更改用于计算元素宽度和高度的默认的 CSS 盒子模型.可以使用此属性来模拟不正确支持CSS盒子模型规范的浏览器的行为. /* 关键字值 */ box-sizing: ...
女儿开始bababababa的发声了
女儿八个半月,开始bababababa的发声了,而不是像以前总啊啊啊的．
JavaScript正则表达式模式匹配(5)——特殊字符匹配、换行模式
特殊字符匹配 var pattern=/\[/; // 用\符号来转义正则里的特殊字符才能匹配 var str='['; alert(pattern.test(str)); 换行模式 var patt ...

hive分组排序 取top N

hive分组排序 取top N的更多相关文章

随机推荐

热门专题

hive分组排序取top N

hive分组排序取top N的更多相关文章