Hive 组内计无重复数，追加每条记录后面

今天无意中碰到一个很简单的计算逻辑，但是用hive想了一大会才实现。

示例表数据：

需求逻辑：

给每条记录追加一个字段，用于统计按照p1和p2字段分组后，每个组中的num的数目（去重后的count）。

示例结果：

Mysql 超级简单的一句：

select

     id,

     num,

     p1,

     p2,

     count(distinct num) over (PARTITION by p1,p2) as f

from test_z;

Hive里

会报distinct有问题，去掉的话，明显与要求逻辑不符合啊。

想了一会还是用 dense_rank 和 join 实现了。以后再发掘其他的简单方法吧：

select

        b.id,

        b.num,

        b.p1,

        b.p2,

        a.f

from

(

    select

           p1,

           p2,

           max(f) as f

    from

   (

      select

            id,

            num,

            p1,

            p2,

            dense_rank() over  (PARTITION by p1, p2 order by num) as f

       from test_z

    )a1

    group by p1,p2

 )a

 join  test_z b

      on a.p1=b.p1 and a.p2=b.p2;

上面的a表太复杂，还可以用简单的group by 和 count(distinct)把a表逻辑换了。

    select

           p1,

           p2,

           count(distinct num) as f

    from test_z

    group by p1,p2

Hive 组内计无重复数，追加每条记录后面的更多相关文章

【HIVE高级笔试必备题型】（组内topN、相邻行的值比较问题）求语文大于数学_/_求文科大于理科成绩的学生
Hive SQL练习之成绩分析数据:[id, 学号,班级,科目,成绩] 1,1,1,yuwen,80 2,1,1,shuxue,85 3,2,1,yuwen,75 4,2,1,shuxue,70 5 ...
ROWNUMBER() OVER( PARTITION BY COL1 ORDER BY COL2)用法，先分组，然后在组内排名，分组计算，主表与附表一对多取唯一等
ROWNUMBER() OVER( PARTITION BY COL1 ORDER BY COL2)用法今天在使用多字段去重时,由于某些字段有多种可能性,只需根据部分字段进行去重,在网上看到了row ...
组内Linq培训记录
注: 由于该培训是在组内分享,先写成了Word,而word中的代码都以截图方式呈现了,而在博客园不能很方便的粘贴截图进来,所以我用插入代码的方式加进来,如果文中说“如下图”或“如下图代码”,那么就直接 ...
主效应|处理误差 |组间误差|处理效应|随机误差|组内误差|误差|效应分析|方差齐性检验|SSE|SSA|SST|MSE|MSA|F检验|关系系数|完全随机化设计|区组设计|析因分析
8 什么是只考虑主效应的方差分析? 就是不考虑交互效应的方差分析,即认为因素之间是不相互影响的,就是无重复的方差分析. 什么是处理误差 (treatment error).组间误差(between ...
sql 分组后组内排名
语法:ROW_NUMBER() OVER(PARTITION BY COLUMN ORDER BY COLUMN) 简单的说row_number()从1开始,为每一条分组记录返回一个数字,这里的ROW ...
Hive 7、Hive 的内表、外表、分区(22)
Hive 7.Hive 的内表.外表.分区 1.Hive的内表 Hive 的内表,就是正常创建的表,在 http://www.cnblogs.com/raphael5200/p/5208437.h ...
Hive 7、Hive 的内表、外表、分区
1.Hive的内表 Hive 的内表,就是正常创建的表,在 http://www.cnblogs.com/raphael5200/p/5208437.html 中已经提到: 2.Hive的外表创建H ...
sql查询技巧，按时间分段进行分组，每半小时一组统计组内记录数量
今天拿到一个查询需求,需要统计某一天各个时间段内的记录数量. 具体是统计某天9:00至22:00时间段,每半小时内订单的数量,最后形成的数据形式如下: 时间段订单数 9:00~9: ...
如何用SQL实现组内前几名的输出
关于问题如何查询组内最大的,最小的,大家或许都知道,无非是min.max的函数使用.可是如何在MySQL中查找组内最好的前两个,或者前三个? 什么是相关子查询在提出对于这个问题的对应方法之前,首先 ...

随机推荐

一个简单的PHP短信群发
function bulksms(){ ignore_user_abort();//关掉浏览器,PHP脚本也可以继续执行. set_time_limit(0);// 通过set_time_limit( ...
[蓝桥杯]ALGO-97.算法训练_排序
题目描述: 问题描述编写一个程序,输入3个整数,然后程序将对这三个整数按照从大到小进行排列. 输入格式:输入只有一行,即三个整数,中间用空格隔开. 输出格式:输出只有一行,即排序后的结果. 输入输出 ...
JIRA 资源
https://www.**.com/article/2015/8/7/22532.html e_v_g_e_t JIRA使用教程:在Windows上安装JIRAJIRA使用教程:在Linux上安装J ...
host文件的用处
做Flash开发的人员免不了接触host文件. 1:首先你注册Flash软件.FlashBuilder都需要先修改host,然后再安装的.(具体的修改时在etc包里找到host文件,把一堆adobe的 ...
限制input输入字符数（中文2个字符，英文1个字符）
input的maxlength可以限制input的输入的字符数,但是是字符串的长度,相当于判断str.length;然而经常会有中文字符算2个字符英文算1个字符的需求,目前只能通过编写代码来实现. & ...
uoj #49. 【UR #3】铀仓库
http://uoj.ac/problem/49 这题二分答案可以做,同时存在另一个直接二分的解法. 考虑对每个点,二分能向左右延伸的最大半径,由于权值范围较大,不能O(1)查询向一侧走指定距离后到达 ...
NIO文件锁FileLock
目录 <linux文件锁flock> <NIO文件锁FileLock> <java程序怎么在一个电脑上只启动一次,只开一个进程> 文件锁可以是shared(共享锁) ...
1136 A Delayed Palindrome （20 分)
Consider a positive integer N written in standard notation with k+1 digits ai as ak⋯a1a0 ...
[UE4]世界坐标、本地坐标
本地坐标世界坐标
IFE2017笔记
1. jQuery.trim()方法 jQuery 杂项方法实例删除字符串开始和末尾的空格 2.jQuery的map方法可以批量操作数组中元素,可以替代传统在循环中处理完数据挨个push进数据的代 ...