Hive级联求和


  • 建表
    CREATE TABLE t_salary_detail(
    username string,
    month string,
    salary INT )
    ROW format delimited FIELDS TERMINATED BY ',';
  • 导入数据
    LOAD DATA LOCAL inpath '/export/servers/hivedatas/click-part-r-00000' INTO TABLE t_salary_detail;
    +---------------------------+------------------------+-------------------------+--+
    | t_salary_detail.username | t_salary_detail.month | t_salary_detail.salary |
    +---------------------------+------------------------+-------------------------+--+
    | A | 2015-01 | 5 |
    | A | 2015-01 | 15 |
    | B | 2015-01 | 5 |
    | A | 2015-01 | 8 |
    | B | 2015-01 | 25 |
    | A | 2015-01 | 5 |
    | A | 2015-02 | 4 |
    | A | 2015-02 | 6 |
    | B | 2015-02 | 10 |
    | B | 2015-02 | 5 |
    | A | 2015-03 | 7 |
    | A | 2015-03 | 9 |
    | B | 2015-03 | 11 |
    | B | 2015-03 | 6 |
    +---------------------------+------------------------+-------------------------+--+

  • 思路

    累积求和其实就是通过inner join表本身来实现。首先要先明白 统计每个用户每个月总共获得多少小费 的hql语句怎么写
    SELECT username,month,sum(salary)
    FROM t_salary_detail
    GROUP BY username,month;
    +-----------+----------+------+--+
    | username | month | _c2 |
    +-----------+----------+------+--+
    | A | 2015-01 | 33 |
    | A | 2015-02 | 10 |
    | A | 2015-03 | 16 |
    | B | 2015-01 | 30 |
    | B | 2015-02 | 15 |
    | B | 2015-03 | 17 |
    +-----------+----------+------+--+

    现在通过inner join连接自己

    SELECT a.*,b.*
    FROM (
    SELECT username,month,sum(salary)
    FROM t_salary_detail
    GROUP BY username,month ) a
    INNER JOIN (
    SELECT username,month,sum(salary)
    FROM t_salary_detail
    GROUP BY username,month ) b
    ON a.username = b.username;
    +-------------+----------+--------+-------------+----------+--------+--+
    | a.username | a.month | a._c2 | b.username | b.month | b._c2 |
    +-------------+----------+--------+-------------+----------+--------+--+
    | A | 2015-01 | 33 | A | 2015-01 | 33 |
    | A | 2015-01 | 33 | A | 2015-02 | 10 |
    | A | 2015-01 | 33 | A | 2015-03 | 16 |
    | A | 2015-02 | 10 | A | 2015-01 | 33 |
    | A | 2015-02 | 10 | A | 2015-02 | 10 |
    | A | 2015-02 | 10 | A | 2015-03 | 16 |
    | A | 2015-03 | 16 | A | 2015-01 | 33 |
    | A | 2015-03 | 16 | A | 2015-02 | 10 |
    | A | 2015-03 | 16 | A | 2015-03 | 16 |
    | B | 2015-01 | 30 | B | 2015-01 | 30 |
    | B | 2015-01 | 30 | B | 2015-02 | 15 |
    | B | 2015-01 | 30 | B | 2015-03 | 17 |
    | B | 2015-02 | 15 | B | 2015-01 | 30 |
    | B | 2015-02 | 15 | B | 2015-02 | 15 |
    | B | 2015-02 | 15 | B | 2015-03 | 17 |
    | B | 2015-03 | 17 | B | 2015-01 | 30 |
    | B | 2015-03 | 17 | B | 2015-02 | 15 |
    | B | 2015-03 | 17 | B | 2015-03 | 17 |
    +-------------+----------+--------+-------------+----------+--------+--+

    得到以上结果可以看出,我们可以利用b表的salary列来进行累积求和,因为我们要求每个用户每个月总共获得小费,到2月份是要将2月和前一个月的小费累计,也就是表中33,33+10,33+10+16这样

    SELECT a.*,b.*
    FROM (
    SELECT username,month,sum(salary)
    FROM t_salary_detail
    GROUP BY username,month ) a
    INNER JOIN (
    SELECT username,month,sum(salary)
    FROM t_salary_detail
    GROUP BY username,month ) b
    ON a.username = b.username
    WHERE b.month <= a.month;
    +-------------+----------+--------+-------------+----------+--------+--+
    | a.username | a.month | a._c2 | b.username | b.month | b._c2 |
    +-------------+----------+--------+-------------+----------+--------+--+
    | A | 2015-01 | 33 | A | 2015-01 | 33 |
    | A | 2015-02 | 10 | A | 2015-01 | 33 |
    | A | 2015-02 | 10 | A | 2015-02 | 10 |
    | A | 2015-03 | 16 | A | 2015-01 | 33 |
    | A | 2015-03 | 16 | A | 2015-02 | 10 |
    | A | 2015-03 | 16 | A | 2015-03 | 16 |
    | B | 2015-01 | 30 | B | 2015-01 | 30 |
    | B | 2015-02 | 15 | B | 2015-01 | 30 |
    | B | 2015-02 | 15 | B | 2015-02 | 15 |
    | B | 2015-03 | 17 | B | 2015-01 | 30 |
    | B | 2015-03 | 17 | B | 2015-02 | 15 |
    | B | 2015-03 | 17 | B | 2015-03 | 17 |
    +-------------+----------+--------+-------------+----------+--------+--+

    得到以上结果后,只需要按照Month分组,对salary列用SUM函数即可

    SELECT SUM(bSalSum)
    FROM (
    SELECT a.month AS aMonth,a.username AS aUser,a.salSum AS aSalSum,
    b.month AS bMonth,b.username AS bUser,b.salSum AS bSalSum
    FROM (
    SELECT month,username,SUM(salary) AS salSum
    FROM t_salary_detail
    GROUP BY username,month ) a
    INNER JOIN (
    SELECT month,username,SUM(salary) AS salSum
    FROM t_salary_detail
    GROUP BY username,month ) b
    ON a.username = b.username
    WHERE b.month <= a.month ) t
    GROUP BY aUser,aMonth;
    +------+--+
    | _c0 |
    +------+--+
    | 33 |
    | 43 |
    | 59 |
    | 30 |
    | 45 |
    | 62 |
    +------+--+

【Hadoop离线基础总结】Hive级联求和的更多相关文章

  1. 【Hadoop离线基础总结】Hive调优手段

    Hive调优手段 最常用的调优手段 Fetch抓取 MapJoin 分区裁剪 列裁剪 控制map个数以及reduce个数 JVM重用 数据压缩 Fetch的抓取 出现原因 Hive中对某些情况的查询不 ...

  2. 【Hadoop离线基础总结】流量日志分析网站整体架构模块开发

    目录 数据仓库设计 维度建模概述 维度建模的三种模式 本项目中数据仓库的设计 ETL开发 创建ODS层数据表 导入ODS层数据 生成ODS层明细宽表 统计分析开发 流量分析 受访分析 访客visit分 ...

  3. 【Hadoop离线基础总结】oozie的安装部署与使用

    目录 简单介绍 概述 架构 安装部署 1.修改core-site.xml 2.上传oozie的安装包并解压 3.解压hadooplibs到与oozie平行的目录 4.创建libext目录,并拷贝依赖包 ...

  4. 【Hadoop离线基础总结】Hue的简单介绍和安装部署

    目录 Hue的简单介绍 概述 核心功能 安装部署 下载Hue的压缩包并上传到linux解压 编译安装启动 启动Hue进程 hue与其他框架的集成 Hue与Hadoop集成 Hue与Hive集成 Hue ...

  5. 【Hadoop离线基础总结】impala简单介绍及安装部署

    目录 impala的简单介绍 概述 优点 缺点 impala和Hive的关系 impala如何和CDH一起工作 impala的架构及查询计划 impala/hive/spark 对比 impala的安 ...

  6. 【Hadoop离线基础总结】Sqoop常用命令及参数

    目录 常用命令 常用公用参数 公用参数:数据库连接 公用参数:import 公用参数:export 公用参数:hive 常用命令&参数 从关系表导入--import 导出到关系表--expor ...

  7. Hadoop(分布式系统基础架构)---Hive与HBase区别

    对于刚接触大数据的用户来说,要想区分Hive与HBase是有一定难度的.本文将尝试从其各自的定义.特点.限制.应用场景等角度来进行分析,以作抛砖引玉之用.  Hive是什么? Apache Hive是 ...

  8. 【Hadoop离线基础总结】Hue与Hive集成

    目录 1.更改hue的配置hue.ini 2.启动hive的metastore以及hiveserver2服务 3.启动hue进程,查看Hive是否与Hue集成成功 1.更改hue的配置hue.ini ...

  9. 【Hadoop离线基础总结】Hive的基本操作

    Hive的基本操作 创建数据库与创建数据库表 创建数据库的相关操作 创建数据库:CREATE TABLE IF NOT EXISTS myhive hive创建表成功后的存放位置由hive-site. ...

随机推荐

  1. python2.7安装pip

  2. Extjs简单的form+grid组合

    采用的是Extjs4.2版本 http://localhost:49999/GridPanel/Index 该链接是本地连接,只是方便自己访问,读者无法正常访问. <script src=&qu ...

  3. C++常用注意事项

    new和delete:现在还没有new[][]和delete[][],所以在用这些的时候最好用循环解决,先一个指针的数组,然后再初始化,每个元素再new一下,这样就满足了多维数组的条件:比如: int ...

  4. 从python爬虫以及数据可视化的角度来为大家呈现“227事件”后,肖战粉丝的数据图

    前言 文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取t.cn ...

  5. 怎么用python 3 开发钉钉群机器人

    前言 文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者:Python绿色通道 PS:如有需要Python学习资料的小伙伴可以加 ...

  6. 小小小小小flag

    2020:300道题 小小小小小flag 150红题 100道橙题 50道黄题 努力变强!加油 我的主页: 主页https://www.luogu.com.cn/user/306734 谢谢大家,目前 ...

  7. 中间人攻击-Arp之局域网内DNS欺骗

    基础知识 网关是啥? 网关是工作在OSI七层模型中的传输层或者应用层,用于高层协议的不同网络之间的连接,网关就好比一个房间通向另一个房间的一扇门. ARP协议 假设A(192.168.1.2)与B(1 ...

  8. ES6新增的 Set 和 WeakSet 是什么玩意?在此揭晓

    现在的章节内容会更加的紧密,如果大家看不懂可以先去看以前的文章,当然看了的忘了,也可以去看一下,这样学习后面的内容才会更加容易. 什么是Set结构 Set是ES6给开发者带来的一种新的数据结构,你可以 ...

  9. swoole学习--图文直播和聊天室

    其实这个也没有什么好值得记录的,但是前面都记下来了,我也顺便说说吧: 1.为了方便,最好把http服务声明为超全局变量. 2.在一些地方里面,你声明的http超全局变量是用不了的,你只能用他自己内置的 ...

  10. tp5--路由的使用方法(深入)

    懒得写注释,直接上代码 配置文件Route: <?php use think\Route; //tp5路由测试 //动态注册 //Route::rule('路由表达式','路由地址','请求类型 ...