hive的窗口函数


  • 概述

    hive中一般求取TopN时就需要用到窗口函数

    专业窗口函数一般有三个

    rank() over

    dense rank() over

    row_number() over

  • 实例

    • 创建一个f_test表拿到以下数据
      +------------+--------------+-------------+--+
      | f_test.id | f_test.name | f_test.sal |
      +------------+--------------+-------------+--+
      | 1 | a | 10 |
      | 2 | a | 12 |
      | 3 | b | 13 |
      | 4 | b | 12 |
      | 5 | a | 14 |
      | 6 | a | 15 |
      | 7 | a | 13 |
      | 8 | b | 11 |
      | 9 | a | 16 |
      | 10 | b | 17 |
      | 11 | a | 14 |
      +------------+--------------+-------------+--+
    • 现在用窗口函数求取TopN
      SELECT id,name,sal,
      RANK() over(PARTITION by name ORDER BY sal DESC) rp,
      DENSE_RANK() over(PARTITION by name ORDER BY sal DESC) drp,
      ROW_NUMBER() over(PARTITION by name ORDER BY sal DESC) rmp
      FROM f_test;

      partition by就相当于group by,但是这里不能替换为group by,而且partition by后只能跟一个字段,group by可以跟多个字段

    • 结果
      +-----+-------+------+-----+------+------+--+
      | id | name | sal | rp | drp | rmp |
      +-----+-------+------+-----+------+------+--+
      | 9 | a | 16 | 1 | 1 | 1 |
      | 6 | a | 15 | 2 | 2 | 2 |
      | 11 | a | 14 | 3 | 3 | 3 |
      | 5 | a | 14 | 3 | 3 | 4 |
      | 7 | a | 13 | 5 | 4 | 5 |
      | 2 | a | 12 | 6 | 5 | 6 |
      | 1 | a | 10 | 7 | 6 | 7 |
      | 10 | b | 17 | 1 | 1 | 1 |
      | 3 | b | 13 | 2 | 2 | 2 |
      | 4 | b | 12 | 3 | 3 | 3 |
      | 8 | b | 11 | 4 | 4 | 4 |
      +-----+-------+------+-----+------+------+--+

      可以看出在a组的sal中有两个相同值

      rank() over是给出了相同的序号3,然后直接跳到5,所以他最后的序号要比实际数据数量少

      dense rank() over同样给出了相同的序号3,但是是接着顺序给出了4,最后序号和实际数据数量相同

      row_number() over则是单纯地按照顺序进行排序,不受相同name影响

【Hadoop离线基础总结】hive的窗口函数的更多相关文章

  1. 【Hadoop离线基础总结】Hive调优手段

    Hive调优手段 最常用的调优手段 Fetch抓取 MapJoin 分区裁剪 列裁剪 控制map个数以及reduce个数 JVM重用 数据压缩 Fetch的抓取 出现原因 Hive中对某些情况的查询不 ...

  2. 【Hadoop离线基础总结】流量日志分析网站整体架构模块开发

    目录 数据仓库设计 维度建模概述 维度建模的三种模式 本项目中数据仓库的设计 ETL开发 创建ODS层数据表 导入ODS层数据 生成ODS层明细宽表 统计分析开发 流量分析 受访分析 访客visit分 ...

  3. 【Hadoop离线基础总结】oozie的安装部署与使用

    目录 简单介绍 概述 架构 安装部署 1.修改core-site.xml 2.上传oozie的安装包并解压 3.解压hadooplibs到与oozie平行的目录 4.创建libext目录,并拷贝依赖包 ...

  4. 【Hadoop离线基础总结】Hue的简单介绍和安装部署

    目录 Hue的简单介绍 概述 核心功能 安装部署 下载Hue的压缩包并上传到linux解压 编译安装启动 启动Hue进程 hue与其他框架的集成 Hue与Hadoop集成 Hue与Hive集成 Hue ...

  5. 【Hadoop离线基础总结】impala简单介绍及安装部署

    目录 impala的简单介绍 概述 优点 缺点 impala和Hive的关系 impala如何和CDH一起工作 impala的架构及查询计划 impala/hive/spark 对比 impala的安 ...

  6. 【Hadoop离线基础总结】Sqoop常用命令及参数

    目录 常用命令 常用公用参数 公用参数:数据库连接 公用参数:import 公用参数:export 公用参数:hive 常用命令&参数 从关系表导入--import 导出到关系表--expor ...

  7. Hadoop(分布式系统基础架构)---Hive与HBase区别

    对于刚接触大数据的用户来说,要想区分Hive与HBase是有一定难度的.本文将尝试从其各自的定义.特点.限制.应用场景等角度来进行分析,以作抛砖引玉之用.  Hive是什么? Apache Hive是 ...

  8. 【Hadoop离线基础总结】Hue与Hive集成

    目录 1.更改hue的配置hue.ini 2.启动hive的metastore以及hiveserver2服务 3.启动hue进程,查看Hive是否与Hue集成成功 1.更改hue的配置hue.ini ...

  9. 【Hadoop离线基础总结】Hive的基本操作

    Hive的基本操作 创建数据库与创建数据库表 创建数据库的相关操作 创建数据库:CREATE TABLE IF NOT EXISTS myhive hive创建表成功后的存放位置由hive-site. ...

随机推荐

  1. 经典算法之归并排序——python和JS实现

    前言 文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者:韩忠康 PS:如有需要Python学习资料的小伙伴可以加点击下方链接自 ...

  2. C#开发BIMFACE系列31 服务端API之模型对比2:获取模型对比状态

    系列目录     [已更新最新开发文章,点击查看详细] 在上一篇<C#开发BIMFACE系列30 服务端API之模型对比1:发起模型对比>中发起了2个模型对比,由于模型对比是在BIMFAC ...

  3. ES[7.6.x]学习笔记(三)新建索引

    与ES的交互方式 与es的交互方式采用http的请求方式,请求的格式如下: curl -X<VERB> '<PROTOCOL>://<HOST>:<PORT& ...

  4. tensorflow1.0 dropout层

    """ Please note, this code is only for python 3+. If you are using python 2+, please ...

  5. 链表数据-PHP的实现

    首先,链表数据的结构是: 其次,链表数据的结构特点: 随后,填充链表结构: 链表结构的数据,从链表尾部塞入数据. 最后,删除链表结构:

  6. 在Thinkphp中微信公众号JsApi支付

    由于网站使用的微信Native扫码支付,现在公众号需要接入功能,怎么办呢,看这官方文档,参考着demo进行写吧.直接进入正题 进入公众号(服务号)设置--->功能设置--->网页授权域名配 ...

  7. JDK的下载安装与环境变量的配置

    第一步:下载 方式一:在地址栏输入 www.oracle.com 访问该网址自行下载 方式二:百度网盘下载链接1.8  64位版本: https://pan.baidu.com/s/10ZMK7NB6 ...

  8. C#多线程(14):任务基础②

    目录 判断任务状态 再说父子任务 组合任务/延续任务 复杂的延续任务 并行(异步)处理任务 并行(同步)处理任务 并行任务的 Task.WhenAny 并行任务状态 循环中值变化问题 定时任务 Tas ...

  9. tp5--开启与关闭调试模式

    https://www.cnblogs.com/finalanddistance/p/8906000.html TP5 显示错误信息   在TP5中,我们运行的代码有错误无法执行时,只显示页面错误,而 ...

  10. Testing for the End of a File (Windows 的异步 IO)

    The ReadFile function checks for the end-of-file condition (EOF) differently for synchronous and asy ...