【Hadoop离线基础总结】Hive级联求和

Hive级联求和

建表

CREATE TABLE t_salary_detail(

username string,

month string,

salary INT )

ROW format delimited FIELDS TERMINATED BY ',';

导入数据

LOAD DATA LOCAL inpath '/export/servers/hivedatas/click-part-r-00000' INTO TABLE t_salary_detail;

+---------------------------+------------------------+-------------------------+--+

| t_salary_detail.username  | t_salary_detail.month  | t_salary_detail.salary  |

+---------------------------+------------------------+-------------------------+--+

| A                         | 2015-01                | 5                       |

| A                         | 2015-01                | 15                      |

| B                         | 2015-01                | 5                       |

| A                         | 2015-01                | 8                       |

| B                         | 2015-01                | 25                      |

| A                         | 2015-01                | 5                       |

| A                         | 2015-02                | 4                       |

| A                         | 2015-02                | 6                       |

| B                         | 2015-02                | 10                      |

| B                         | 2015-02                | 5                       |

| A                         | 2015-03                | 7                       |

| A                         | 2015-03                | 9                       |

| B                         | 2015-03                | 11                      |

| B                         | 2015-03                | 6                       |

+---------------------------+------------------------+-------------------------+--+

思路

累积求和其实就是通过inner join表本身来实现。首先要先明白 统计每个用户每个月总共获得多少小费 的hql语句怎么写

SELECT username,month,sum(salary)

FROM t_salary_detail

GROUP BY username,month;

+-----------+----------+------+--+

| username  |  month   | _c2  |

+-----------+----------+------+--+

| A         | 2015-01  | 33   |

| A         | 2015-02  | 10   |

| A         | 2015-03  | 16   |

| B         | 2015-01  | 30   |

| B         | 2015-02  | 15   |

| B         | 2015-03  | 17   |

+-----------+----------+------+--+

现在通过inner join连接自己

SELECT a.*,b.*

FROM (

SELECT username,month,sum(salary)

FROM t_salary_detail

GROUP BY username,month ) a

INNER JOIN (

SELECT username,month,sum(salary)

FROM t_salary_detail

GROUP BY username,month ) b

ON a.username = b.username;

+-------------+----------+--------+-------------+----------+--------+--+

| a.username  | a.month  | a._c2  | b.username  | b.month  | b._c2  |

+-------------+----------+--------+-------------+----------+--------+--+

| A           | 2015-01  | 33     | A           | 2015-01  | 33     |

| A           | 2015-01  | 33     | A           | 2015-02  | 10     |

| A           | 2015-01  | 33     | A           | 2015-03  | 16     |

| A           | 2015-02  | 10     | A           | 2015-01  | 33     |

| A           | 2015-02  | 10     | A           | 2015-02  | 10     |

| A           | 2015-02  | 10     | A           | 2015-03  | 16     |

| A           | 2015-03  | 16     | A           | 2015-01  | 33     |

| A           | 2015-03  | 16     | A           | 2015-02  | 10     |

| A           | 2015-03  | 16     | A           | 2015-03  | 16     |

| B           | 2015-01  | 30     | B           | 2015-01  | 30     |

| B           | 2015-01  | 30     | B           | 2015-02  | 15     |

| B           | 2015-01  | 30     | B           | 2015-03  | 17     |

| B           | 2015-02  | 15     | B           | 2015-01  | 30     |

| B           | 2015-02  | 15     | B           | 2015-02  | 15     |

| B           | 2015-02  | 15     | B           | 2015-03  | 17     |

| B           | 2015-03  | 17     | B           | 2015-01  | 30     |

| B           | 2015-03  | 17     | B           | 2015-02  | 15     |

| B           | 2015-03  | 17     | B           | 2015-03  | 17     |

+-------------+----------+--------+-------------+----------+--------+--+

得到以上结果可以看出，我们可以利用b表的salary列来进行累积求和，因为我们要求每个用户每个月总共获得小费，到2月份是要将2月和前一个月的小费累计，也就是表中33,33+10,33+10+16这样

SELECT a.*,b.*

FROM (

SELECT username,month,sum(salary)

FROM t_salary_detail

GROUP BY username,month ) a

INNER JOIN (

SELECT username,month,sum(salary)

FROM t_salary_detail

GROUP BY username,month ) b

ON a.username = b.username

WHERE b.month <= a.month;

+-------------+----------+--------+-------------+----------+--------+--+

| a.username  | a.month  | a._c2  | b.username  | b.month  | b._c2  |

+-------------+----------+--------+-------------+----------+--------+--+

| A           | 2015-01  | 33     | A           | 2015-01  | 33     |

| A           | 2015-02  | 10     | A           | 2015-01  | 33     |

| A           | 2015-02  | 10     | A           | 2015-02  | 10     |

| A           | 2015-03  | 16     | A           | 2015-01  | 33     |

| A           | 2015-03  | 16     | A           | 2015-02  | 10     |

| A           | 2015-03  | 16     | A           | 2015-03  | 16     |

| B           | 2015-01  | 30     | B           | 2015-01  | 30     |

| B           | 2015-02  | 15     | B           | 2015-01  | 30     |

| B           | 2015-02  | 15     | B           | 2015-02  | 15     |

| B           | 2015-03  | 17     | B           | 2015-01  | 30     |

| B           | 2015-03  | 17     | B           | 2015-02  | 15     |

| B           | 2015-03  | 17     | B           | 2015-03  | 17     |

+-------------+----------+--------+-------------+----------+--------+--+

得到以上结果后，只需要按照Month分组，对salary列用SUM函数即可

SELECT SUM(bSalSum)

FROM (

SELECT a.month AS aMonth,a.username AS aUser,a.salSum AS aSalSum,

b.month AS bMonth,b.username AS bUser,b.salSum AS bSalSum

FROM (

SELECT month,username,SUM(salary) AS salSum

FROM t_salary_detail

GROUP BY username,month ) a

INNER JOIN (

SELECT month,username,SUM(salary) AS salSum

FROM t_salary_detail

GROUP BY username,month ) b

ON a.username = b.username

WHERE b.month <= a.month ) t

GROUP BY aUser,aMonth;

+------+--+

| _c0  |

+------+--+

| 33   |

| 43   |

| 59   |

| 30   |

| 45   |

| 62   |

+------+--+

【Hadoop离线基础总结】Hive级联求和的更多相关文章

【Hadoop离线基础总结】Hive调优手段
Hive调优手段最常用的调优手段 Fetch抓取 MapJoin 分区裁剪列裁剪控制map个数以及reduce个数 JVM重用数据压缩 Fetch的抓取出现原因 Hive中对某些情况的查询不 ...
【Hadoop离线基础总结】流量日志分析网站整体架构模块开发
目录数据仓库设计维度建模概述维度建模的三种模式本项目中数据仓库的设计 ETL开发创建ODS层数据表导入ODS层数据生成ODS层明细宽表统计分析开发流量分析受访分析访客visit分 ...
【Hadoop离线基础总结】oozie的安装部署与使用
目录简单介绍概述架构安装部署 1.修改core-site.xml 2.上传oozie的安装包并解压 3.解压hadooplibs到与oozie平行的目录 4.创建libext目录,并拷贝依赖包 ...
【Hadoop离线基础总结】Hue的简单介绍和安装部署
目录 Hue的简单介绍概述核心功能安装部署下载Hue的压缩包并上传到linux解压编译安装启动启动Hue进程 hue与其他框架的集成 Hue与Hadoop集成 Hue与Hive集成 Hue ...
【Hadoop离线基础总结】impala简单介绍及安装部署
目录 impala的简单介绍概述优点缺点 impala和Hive的关系 impala如何和CDH一起工作 impala的架构及查询计划 impala/hive/spark 对比 impala的安 ...
【Hadoop离线基础总结】Sqoop常用命令及参数
目录常用命令常用公用参数公用参数:数据库连接公用参数:import 公用参数:export 公用参数:hive 常用命令&参数从关系表导入--import 导出到关系表--expor ...
Hadoop(分布式系统基础架构)---Hive与HBase区别
对于刚接触大数据的用户来说,要想区分Hive与HBase是有一定难度的.本文将尝试从其各自的定义.特点.限制.应用场景等角度来进行分析,以作抛砖引玉之用. Hive是什么? Apache Hive是 ...
【Hadoop离线基础总结】Hue与Hive集成
目录 1.更改hue的配置hue.ini 2.启动hive的metastore以及hiveserver2服务 3.启动hue进程,查看Hive是否与Hue集成成功 1.更改hue的配置hue.ini ...
【Hadoop离线基础总结】Hive的基本操作
Hive的基本操作创建数据库与创建数据库表创建数据库的相关操作创建数据库:CREATE TABLE IF NOT EXISTS myhive hive创建表成功后的存放位置由hive-site. ...

随机推荐

BeanShell计算支付价格
问题:需要获取支付价格,而支付价格是商品价格*折扣解决:先将商品价格和折扣获取出来,然后使用BeanShell将两个值相乘,获得最后的支付价格 1.使用json提取器提取商品的价格 2.使用正则表达 ...
文件密码忘记了怎么办，教你如何使用Python破解密码
前言文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者:轻松学编程小梁 PS:如有需要Python学习资料的小伙伴可以加点击下 ...
K - Two Contests
题目连接:https://atcoder.jp/contests/agc040/tasks/agc040_b 大佬题解:https://blog.csdn.net/duanghaha/article/ ...
基础_TCP/IP
概念明确: 1:TCP/IP代表传输控制协议/网际协议,指的是一系列协议为什么会叫TCP/IP.因为用的多, 2:HTTP 是属于应用层的协议 3:OSI七层模型和TCP/IP 平等,只是TCP/ ...
CSS 中你应该了解的 BFC
我们常说的文档流其实分为定位流.浮动流和普通流三种.而普通流其实就是指BFC中的FC.FC是formatting context的首字母缩写,直译过来是格式化上下文,它是页面中的一块渲染区域,有一套渲 ...
Cucumber(2)——目录结构以及基本语法
目录回顾 HelloWorld 扩展回顾在上一节中,我大致的介绍了一下cucumber的特点,以及基于ruby和JavaScript下关于cucumber环境的配置,如果你还没有进行相关的了解或 ...
Python实现按键精灵(一)-键鼠操作
需要安装 pywin32库 pip install pywin32 import win32api import time #鼠标移动 def mouse_move(x,y): win32api.Se ...
Servlet 和 Servlet容器
Servlet 很多同学可能跟我一样始终没有搞清楚到底什么是 Servlet,什么是 Servlet 容器.网上看了很多帖子,或许人家说的很清楚,但是自己的那个弯弯就是拐不过来. 想了很久说一下自己的 ...
一张图记住Linux系统常用诊断工具
memcache---mongodb---redis比较
Memcached的优点: Memcached可以利用多核优势,单实例吞吐量极高,可以达到几十万QPS(取决于key.value的字节大小以及服务器硬件性能,日常环境中QPS高峰大约在4-6w左右). ...

【Hadoop离线基础总结】Hive级联求和

Hive级联求和

【Hadoop离线基础总结】Hive级联求和的更多相关文章

随机推荐

热门专题