Hive-分区取TOP N问题

问题背景

设想你对用户在不同品类上的行为打分聚合后得到这样一个表 user_cate_score

uid	cate	score
1	1	0.3
2	2	0.5
8	3	0.9

现在,你想将每个品类的TOP 100W 用户取出来,这种场景在推荐、营销中很常见。

基本方法

这个很容易通过窗函数写出如下解法

select uid, cate, scorefrom(

    select uid, cate, score, row_number() over (partition by cate order by score desc) as r

    from user_cate_score)T where r <= 1000000

通过窗函数row_number()在每个cate分区上按照score排序,得到row_number,然后取TOP 100W即可。

问题: Hive在执行的时候由于每个partition会分到一个reducer上,这导致单个reducer处理的数据量非常大,严重拖慢执行时间,没法充分利用到分布式的效率。

改进方法

近似取TOP 100W

select uid, cate, scorefrom(

    select uid, cate, score, row_number() over (partition by cate,rnd  order by score desc) as r

    from(

        select *, cast(rand() * 100 as int) as rnd

        from user_cate_score

    )Ta)Tbwhere r <= 10000

思路: 加上一个0-100的随机数进行partition,可以将一个cate分散到100个reducer上执行,然后对每个cate的每个reducer取TOP 1W,就近似实现了对每个cate取TOP 100W。好处,速度快了很多。

Hive-分区取TOP N问题的更多相关文章

Hive分组取Top K数据
阿里交叉面试问到了这个题,当时感觉没有答好,主要是对Hive这块还是不熟悉,其实可以采用row_number()函数. 1.ROW_NUMBER,RANK(),DENSE_RANK() 语法格式:ro ...
Hive分组取Top N
Hive在0.11.0版本开始加入了row_number.rank.dense_rank分析函数,可以查询分组排序后的top值说明: row_number() over ([partition ...
hive -- 分区，分桶(创建，修改，删除)
hive -- 分区,分桶(创建,修改,删除) 分区: 静态创建分区: 1. 数据: john doe 10000.0 mary smith 8000.0 todd jones 7000.0 boss ...
Hive中SELECT TOP N的方法(order by与sort by的区别)
我想说的SELECT TOP N是取最大前N条或者最小前N条. Hive提供了limit关键字,再配合order by可以很容易地实现SELECT TOP N. 但是在Hive中order by只能使 ...
sql 分组取最新的数据sqlserver巧用row_number和partition by分组取top数据
SQL Server 2005后之后,引入了row_number()函数,row_number()函数的分组排序功能使这种操作变得非常简单分组取TOP数据是T-SQL中的常用查询, 如学生信息管理系 ...
Oracle:分割字符串取TOP N条记录
oracle数据库,表数据如下: ids id 3,4,5 7 13,14,15,16 ...
row_number和partition by分组取top数据
分组取TOP数据是T-SQL中的常用查询, 如学生信息管理系统中取出每个学科前3名的学生.这种查询在SQL Server 2005之前,写起来很繁琐,需要用到临时表关联查询才能取到.SQL Serve ...
从m个数中取top n
将题目具体一点,例如,从100个数中取出从大到小排前10的数方法1:使用快速排序因为快速排序一趟下来,小于K的数都在K的前面,大于K的数都在K的后面如果,小于K的数有35个,大于K的数有64个 ...
SQL Server 分组后取Top N
SQL Server 分组后取Top N(转) 近日,工作中突遇一需求:将一数据表分组,而后取出每组内按一定规则排列的前N条数据.乍想来,这本是寻常查询,无甚难处.可提笔写来,终究是困住了笔者好一会儿 ...
Hive分区（静态分区+动态分区）
Hive分区的概念与传统关系型数据库分区不同. 传统数据库的分区方式:就oracle而言,分区独立存在于段里,里面存储真实的数据,在数据进行插入的时候自动分配分区. Hive的分区方式:由于Hive实 ...

随机推荐

java基础(16)--super与this
一.this简介 1.this. this() 2.静态方法无法使用 3.不省略的情况:区分局部变量与实例变量,比如set方法中用到二.super简介 1.只能出现在实例方法或构造方法中 2. ...
【mysql】解决 auto_increment 字段 Column count doesn't match value count at row 1
1, 表结构 man +-------+-------------+------+-----+---------+----------------+| id | int(11) | NO | PR ...
后端开发之光！Django应用的容器化部署实践~
在此之前,我一直用uwsgi+virtualenv+nginx方式进行应用部署,操作起来比较麻烦,而且依赖于服务器上的Python版本,服务的管理方面单纯uwsgi + pid算不上特别麻烦但总没有d ...
[转帖]SQL SERVER DBCC命令详解
https://developer.aliyun.com/article/867768 简介: SQL数据库开发 DBCC DROPCLEANBUFFERS:从缓冲池中删除所有缓存,清除缓冲区在 ...
[转帖]一文读懂 HugePages（大内存页）的原理
https://juejin.cn/post/6956541214426398757 在介绍 HugePages 之前,我们先来回顾一下 Linux 下虚拟内存与物理内存之间的关系. 物理内存 ...
[转帖]TIDB-Error 1105: Out Of Memory Quota问题解决
一.背景复杂sql查询报错二.原因单条s q l使用内存默认为1G 三.解决 tiup cluster edit_config tidb-test server_configs: tidb: m ...
ext4 扩容磁盘的方式方法
ext4 扩容磁盘的方式方法背景前期一直处理xfs,lvm磁盘的扩容很少处理ext4的磁盘扩容今天发现自己竟然对这一块有盲区. 晚上回家自己学习研究了会儿, 发现知识点还挺多所以总结一下. ...
[转帖]oracle OSWatcher安装部署
Oswatch是oracle官方提供,用于收集操作系统性能的小工具,oswatch的安装与使用也比较简单,直接解压就可以使用.oswatch是通过调用系统的命令完成信息的收集,如:ps ,top ,m ...
[转帖]【rpm】源码包制作rpm包|修改rpm、重新制作rpm包
目录前言安装rpmbuild rpmbuild制作rpm 包同时生成devel包阻止rpmbuid打包时strip程序/库修改rpm.重新制作rpm包 RPM 打包工具 SPEC文件 sp ...
[转帖]Dapper，大规模分布式系统的跟踪系统
http://bigbully.github.io/Dapper-translation/ 作者:Benjamin H. Sigelman, Luiz Andr´e Barroso, Mike Bur ...