Hive 分析函数lead、lag实例应用
Hive的分析函数又叫窗口函数,在oracle中就有这样的分析函数,主要用来做数据统计分析的。
这种操作可以代替表的自联接,并且LAG和LEAD有更高的效率,其中over()表示当前查询的结果集对象,括号里面的语句则表示对这个结果集进行处理。
函数介绍
LAG
LAG(col,n,DEFAULT) 用于统计窗口内往上第n行值
参数1为列名,参数2为往上第n行(可选,默认为1),参数3为默认值(当往上第n行为NULL时候,取默认值,如不指定,则为NULL)
LEAD
与LAG相反
LEAD(col,n,DEFAULT) 用于统计窗口内往下第n行值
参数1为列名,参数2为往下第n行(可选,默认为1),参数3为默认值(当往下第n行为NULL时候,取默认值,如不指定,则为NULL)
场景
问题
用户Peter在浏览网页,在某个时刻,Peter点进了某个页面,过一段时间后,Peter又进入了另外一个页面,如此反复,那怎么去统计Peter在某个特定网页的停留时间呢,又或是怎么统计某个网页用户停留的总时间呢?
数据准备
- create table test.user_log(
- userid string,
- time string,
- url string
- ) row format delimited fields terminated by ',';
记录数据:
- +------------------+----------------------+---------------+--+
- | user_log.userid | user_log.time | user_log.url |
- +------------------+----------------------+---------------+--+
- | Peter | 2015-10-12 01:10:00 | url1 |
- | Peter | 2015-10-12 01:15:10 | url2 |
- | Peter | 2015-10-12 01:16:40 | url3 |
- | Peter | 2015-10-12 02:13:00 | url4 |
- | Peter | 2015-10-12 03:14:30 | url5 |
- | Marry | 2015-11-12 01:10:00 | url1 |
- | Marry | 2015-11-12 01:15:10 | url2 |
- | Marry | 2015-11-12 01:16:40 | url3 |
- | Marry | 2015-11-12 02:13:00 | url4 |
- | Marry | 2015-11-12 03:14:30 | url5 |
- +------------------+----------------------+---------------+--+
分析步骤
获取用户在某个页面停留的起始与结束时间
- select userid,
- time stime,
- lead(time) over(partition by userid order by time) etime,
- url
- from test.user_log;
结果:
- +---------+----------------------+----------------------+-------+--+
- | userid | stime | etime | url |
- +---------+----------------------+----------------------+-------+--+
- | Marry | 2015-11-12 01:10:00 | 2015-11-12 01:15:10 | url1 |
- | Marry | 2015-11-12 01:15:10 | 2015-11-12 01:16:40 | url2 |
- | Marry | 2015-11-12 01:16:40 | 2015-11-12 02:13:00 | url3 |
- | Marry | 2015-11-12 02:13:00 | 2015-11-12 03:14:30 | url4 |
- | Marry | 2015-11-12 03:14:30 | NULL | url5 |
- | Peter | 2015-10-12 01:10:00 | 2015-10-12 01:15:10 | url1 |
- | Peter | 2015-10-12 01:15:10 | 2015-10-12 01:16:40 | url2 |
- | Peter | 2015-10-12 01:16:40 | 2015-10-12 02:13:00 | url3 |
- | Peter | 2015-10-12 02:13:00 | 2015-10-12 03:14:30 | url4 |
- | Peter | 2015-10-12 03:14:30 | NULL | url5 |
- +---------+----------------------+----------------------+-------+--+
计算用户在页面停留的时间间隔(实际分析当中,这里要做数据清洗工作,如果一个用户停留了4、5个小时,那这条记录肯定是不可取的。)
- select userid,
- time stime,
- lead(time) over(partition by userid order by time) etime,
- UNIX_TIMESTAMP(lead(time) over(partition by userid order by time),'yyyy-MM-dd HH:mm:ss')- UNIX_TIMESTAMP(time,'yyyy-MM-dd HH:mm:ss') period,
- url
- from test.user_log;
结果:
- +---------+----------------------+----------------------+---------+-------+--+
- | userid | stime | etime | period | url |
- +---------+----------------------+----------------------+---------+-------+--+
- | Marry | 2015-11-12 01:10:00 | 2015-11-12 01:15:10 | 310 | url1 |
- | Marry | 2015-11-12 01:15:10 | 2015-11-12 01:16:40 | 90 | url2 |
- | Marry | 2015-11-12 01:16:40 | 2015-11-12 02:13:00 | 3380 | url3 |
- | Marry | 2015-11-12 02:13:00 | 2015-11-12 03:14:30 | 3690 | url4 |
- | Marry | 2015-11-12 03:14:30 | NULL | NULL | url5 |
- | Peter | 2015-10-12 01:10:00 | 2015-10-12 01:15:10 | 310 | url1 |
- | Peter | 2015-10-12 01:15:10 | 2015-10-12 01:16:40 | 90 | url2 |
- | Peter | 2015-10-12 01:16:40 | 2015-10-12 02:13:00 | 3380 | url3 |
- | Peter | 2015-10-12 02:13:00 | 2015-10-12 03:14:30 | 3690 | url4 |
- | Peter | 2015-10-12 03:14:30 | NULL | NULL | url5 |
- +---------+----------------------+----------------------+---------+-------+--+
计算每个页面停留的总时间,某个用户访问某个页面的总时间
- select nvl(url,'-1') url,
- nvl(userid,'-1') userid,
- sum(period) totol_peroid from (
- select userid,
- time stime,
- lead(time) over(partition by userid order by time) etime,
- UNIX_TIMESTAMP(lead(time) over(partition by userid order by time),'yyyy-MM-dd HH:mm:ss')- UNIX_TIMESTAMP(time,'yyyy-MM-dd HH:mm:ss') period,
- url
- from test.user_log
- ) a group by url, userid with rollup;
结果:
- +-------+---------+---------------+--+
- | url | userid | totol_peroid |
- +-------+---------+---------------+--+
- | -1 | -1 | 14940 |
- | url1 | -1 | 620 |
- | url1 | Marry | 310 |
- | url1 | Peter | 310 |
- | url2 | -1 | 180 |
- | url2 | Marry | 90 |
- | url2 | Peter | 90 |
- | url3 | -1 | 6760 |
- | url3 | Marry | 3380 |
- | url3 | Peter | 3380 |
- | url4 | -1 | 7380 |
- | url4 | Marry | 3690 |
- | url4 | Peter | 3690 |
- | url5 | -1 | NULL |
- | url5 | Marry | NULL |
- | url5 | Peter | NULL |
- +-------+---------+---------------+--+
Hive 分析函数lead、lag实例应用的更多相关文章
- Hive 窗口函数LEAD LAG FIRST_VALUE LAST_VALUE
窗口函数(window functions)对多行进行操作,并为查询中的每一行返回一个值. OVER()子句能将窗口函数与其他分析函数(analytical functions)和报告函数(repor ...
- oracle函数中lead,lag,over,partition by 的使用
lead,lag函数的分析 http://blog.csdn.net/mazongqiang/article/details/7621328 举例如下: SQL> select * from ...
- Hive窗口函数之LAG、LEAD、FIRST_VALUE、LAST_VALUE的用法
一.创建表: create table windows_ss ( polno string, eff_date string, userno string ) ROW FORMAT DELIMITED ...
- 大数据学习day28-----hive03------1. null值处理,子串,拼接,类型转换 2.行转列,列转行 3. 窗口函数(over,lead,lag等函数) 4.rank(行号函数)5. json解析函数 6.jdbc连接hive,企业级调优
1. null值处理,子串,拼接,类型转换 (1) 空字段赋值(null值处理) 当表中的某个字段为null时,比如奖金,当你要统计一个人的总工资时,字段为null的值就无法处理,这个时候就可以使用N ...
- Oracle 分析函数之 lag和lead
Lag和Lead分析函数可以在同一次查询中取出同一字段的前N行的数据(Lag)和后N行的数据(Lead)作为独立的列. 这种操作可以代替表的自联接,并且LAG和LEAD有更高的效率. /*语法*/ ...
- oracle 列相减——(Oracle分析函数Lead(),Lag())
lag和lead函数,用于取出数据的前n行的数据和后n行的数据,当然要和over(order by)一起组合 其实这2个函数的作用非常好理解,Lead()就是取当前顺序的下一条记录,相对Lag()就是 ...
- oracle listagg函数、lag函数、lead函数 实例
Oracle大师Thomas Kyte在他的经典著作中,反复强调过一个实现需求方案选取顺序: “如果你可以使用一句SQL解决的需求,就使用一句SQL:如果不可以,就考虑PL/SQL是否可以:如果PL/ ...
- over 分析函数之 lag() lead()
/*语法*/ lag(exp_str,offset,defval) over() 取前 Lead(exp_str,offset,defval) over() 取后 --exp_str要取的列 -- ...
- Oracle Sql优化之lead,lag分析函数
1.表中有四个字段:人员编号,开始时间,结束时间,类型,数据ID,需要实现如下需求 a.当类型为-1时,丢弃该记录 b.当类型为-1时,且前一行结束时间为null,当前行的开始时间-1作为前一行的结束 ...
随机推荐
- easyUI 实现异步tree
html: <ul id="relInfoTree" class="easyui-tree"></ul> js: $(document) ...
- MySQL JOIN | 联结
联结是利用SQL的SELECT能执行的最重要的操作.为了提高存储的有效性和避免数据冗余,往往会将有关联的数据存储在好几张表中,那么怎样用一条SELECT语句就能检索出这些数据呢? 答案是JOIN(联结 ...
- MVC与MVVM的关系
什么是MVC? M(Model数据层) 职能单一,只负责操作数据库,执行对于的 Sql 语句,进行数据的CRUD C: create 增加 R: Read 读取 U: update 修改 D: Del ...
- IT技能等级
IT技能 低:会使用,会简单维修(操作) 中:能跟据实际业务需求扩展(技改.完善) 中高:找产品,能组合,能设计创造(出方案) 高:能规划(规划)
- 数据字典的设计--3.首页添加删除表格(JS实现)
页面效果: JS代码: 1.添加表格 function insertRows(){ //获取表格对象 var tb1 = $("#dictTbl"); var tempRow = ...
- 关于mongodb的日志
mongodb的日志与profile相似,在启动mongod时 可以用verbose这个参数配置他的日志详细程度,分为一个v到5个v,其中v越多,详细度越高 mogod.conf port = d ...
- Java环境变量搭建(Linux环境)
1. 下载解压JDK压缩包 例如:解压到 /opt/jdk1.7.0_80 下 2. 添加环境变量到 /etc/profile 文件中 vi /etc/profile 在文件末尾追加如下内容: exp ...
- oo作业第四单元总结暨结课总结
目录 一.第四单元作业架构设计 1.第一次UML作业架构设计 2.第二次UML作业架构设计 二.架构设计和OO方法理解演进 三.测试理解与实践的演进 四.课程收获总结 五.三个具体改进建议 一.第四单 ...
- javaweb基础(31)_国际化(i18n)
一.国际化开发概述 软件的国际化:软件开发时,要使它能同时应对世界不同地区和国家的访问,并针对不同地区和国家的访问,提供相应的.符合来访者阅读习惯的页面或数据. 国际化(internationaliz ...
- XAMPP安装过程中,出现的问题
这次运行一个简单的前端(html+css+js+ajax)+php后端项目,运行XAMPP的时候,出现两个问题: phpmyadmin运行不起来,一直报1544错误 请求本地图片及php文件报403错 ...