【Hadoop离线基础总结】hive的窗口函数

hive的窗口函数

概述

hive中一般求取TopN时就需要用到窗口函数

专业窗口函数一般有三个

rank() over

dense rank() over

row_number() over

实例

创建一个f_test表拿到以下数据

+------------+--------------+-------------+--+

| f_test.id  | f_test.name  | f_test.sal  |

+------------+--------------+-------------+--+

| 1          | a            | 10          |

| 2          | a            | 12          |

| 3          | b            | 13          |

| 4          | b            | 12          |

| 5          | a            | 14          |

| 6          | a            | 15          |

| 7          | a            | 13          |

| 8          | b            | 11          |

| 9          | a            | 16          |

| 10         | b            | 17          |

| 11         | a            | 14          |

+------------+--------------+-------------+--+

现在用窗口函数求取TopN

SELECT id,name,sal,

RANK() over(PARTITION by name ORDER BY sal DESC) rp,

DENSE_RANK() over(PARTITION by name ORDER BY sal DESC) drp,

ROW_NUMBER() over(PARTITION by name ORDER BY sal DESC) rmp

FROM f_test;

partition by就相当于group by，但是这里不能替换为group by，而且partition by后只能跟一个字段，group by可以跟多个字段

结果

+-----+-------+------+-----+------+------+--+

| id  | name  | sal  | rp  | drp  | rmp  |

+-----+-------+------+-----+------+------+--+

| 9   | a     | 16   | 1   | 1    | 1    |

| 6   | a     | 15   | 2   | 2    | 2    |

| 11  | a     | 14   | 3   | 3    | 3    |

| 5   | a     | 14   | 3   | 3    | 4    |

| 7   | a     | 13   | 5   | 4    | 5    |

| 2   | a     | 12   | 6   | 5    | 6    |

| 1   | a     | 10   | 7   | 6    | 7    |

| 10  | b     | 17   | 1   | 1    | 1    |

| 3   | b     | 13   | 2   | 2    | 2    |

| 4   | b     | 12   | 3   | 3    | 3    |

| 8   | b     | 11   | 4   | 4    | 4    |

+-----+-------+------+-----+------+------+--+

可以看出在a组的sal中有两个相同值

rank() over是给出了相同的序号3，然后直接跳到5，所以他最后的序号要比实际数据数量少

dense rank() over同样给出了相同的序号3，但是是接着顺序给出了4，最后序号和实际数据数量相同

row_number() over则是单纯地按照顺序进行排序，不受相同name影响

【Hadoop离线基础总结】hive的窗口函数的更多相关文章

【Hadoop离线基础总结】Hive调优手段
Hive调优手段最常用的调优手段 Fetch抓取 MapJoin 分区裁剪列裁剪控制map个数以及reduce个数 JVM重用数据压缩 Fetch的抓取出现原因 Hive中对某些情况的查询不 ...
【Hadoop离线基础总结】流量日志分析网站整体架构模块开发
目录数据仓库设计维度建模概述维度建模的三种模式本项目中数据仓库的设计 ETL开发创建ODS层数据表导入ODS层数据生成ODS层明细宽表统计分析开发流量分析受访分析访客visit分 ...
【Hadoop离线基础总结】oozie的安装部署与使用
目录简单介绍概述架构安装部署 1.修改core-site.xml 2.上传oozie的安装包并解压 3.解压hadooplibs到与oozie平行的目录 4.创建libext目录,并拷贝依赖包 ...
【Hadoop离线基础总结】Hue的简单介绍和安装部署
目录 Hue的简单介绍概述核心功能安装部署下载Hue的压缩包并上传到linux解压编译安装启动启动Hue进程 hue与其他框架的集成 Hue与Hadoop集成 Hue与Hive集成 Hue ...
【Hadoop离线基础总结】impala简单介绍及安装部署
目录 impala的简单介绍概述优点缺点 impala和Hive的关系 impala如何和CDH一起工作 impala的架构及查询计划 impala/hive/spark 对比 impala的安 ...
【Hadoop离线基础总结】Sqoop常用命令及参数
目录常用命令常用公用参数公用参数:数据库连接公用参数:import 公用参数:export 公用参数:hive 常用命令&参数从关系表导入--import 导出到关系表--expor ...
Hadoop(分布式系统基础架构)---Hive与HBase区别
对于刚接触大数据的用户来说,要想区分Hive与HBase是有一定难度的.本文将尝试从其各自的定义.特点.限制.应用场景等角度来进行分析,以作抛砖引玉之用. Hive是什么? Apache Hive是 ...
【Hadoop离线基础总结】Hue与Hive集成
目录 1.更改hue的配置hue.ini 2.启动hive的metastore以及hiveserver2服务 3.启动hue进程,查看Hive是否与Hue集成成功 1.更改hue的配置hue.ini ...
【Hadoop离线基础总结】Hive的基本操作
Hive的基本操作创建数据库与创建数据库表创建数据库的相关操作创建数据库:CREATE TABLE IF NOT EXISTS myhive hive创建表成功后的存放位置由hive-site. ...

随机推荐

Jmeter发送jdbc请求进行大批量造数
创建批量造数脚本,一个简单的结构如下图所示, 1.线程组(10个线程重复运行2次,相当于造20个数) 2.用户定义变量(这是全局变量,用于后面随机筛选用) 3.数据库连接配置 4.计数器(用于主键递增 ...
详解 ServerSocket与Socket类
(请观看本人博文 -- <详解网络编程>) 目录 ServerSocket与Socket ServerSocket 类: Socket类: ServerSocket与Socket 首先, ...
数据结构（C语言版）---二叉树
1.二叉树:任意一个结点的子结点个数最多两个,且子结点的位置不可更改,二叉树的子树有左右之分. 1)分类:(1)一般二叉树(2)满二叉树:在不增加树的层数的前提下,无法再多添加一个结点的二叉树就是满二 ...
C# 基础知识系列- 12 任务和多线程
0. 前言照例一份前言,在介绍任务和多线程之前,先介绍一下异步和同步的概念.我们之间介绍的知识点都是在同步执行,所谓的同步就是一行代码一行代码的执行,就像是我们日常乘坐地铁通过安检通道一样,想象我们 ...
尾递归和JAVA
简单来说,递归即是调用自己本身.所有递归都应该有至少一个基本条件,在满足基本条件时不进行递归. 给出一个递归实例: int fact(int N){ if(N==1) return 1; else r ...
python数据分析工具——Pandas、StatsModels、Scikit-Learn
Pandas Pandas是 Python下最强大的数据分析和探索工具.它包含高级的数据结构和精巧的工具,使得在 Python中处理数据非常快速和简单. Pandas构建在 Numpy之上,它使得以 ...
Oracle Database 12C 安装教程
一.下载地址 Oracle Database 官方下载地址:https://www.oracle.com/database/technologies/oracle-database-software- ...
chrome Provisional headers are shown错误提示（转载）
今天开发时遇到了一个问题,由于要做一个支付等待页,大概的意思就是点击支付之后,跳出来一个页面,告知用户正在跳转到支付页面.这个时候问题来了,指鹤要做的这个静态支付等待页中有图片,而为了要让这个静态页面 ...
解决Lost connection to MySQL server during query错误方法/Mysql关闭严格模式
使用Navicat 导入MySQL数据库的时候,出现了一个严重的错误,Lost connection to MySQL server during query,字面意思就是在查询过程中丢失连接到MyS ...
Zabbix CPU utilization监控参数
工作中查看Zabbix linux 监控项的时候对linux 监控的cpu使用的各个参数没怎么明白,特意查看了下资料 Zabbix linux模板下的CPU utilization是自带的监控Linu ...

【Hadoop离线基础总结】hive的窗口函数

hive的窗口函数

【Hadoop离线基础总结】hive的窗口函数的更多相关文章

随机推荐

热门专题