Hive的分析函数又叫窗口函数，在oracle中就有这样的分析函数，主要用来做数据统计分析的。

Lag和Lead分析函数可以在同一次查询中取出同一字段的前N行的数据(Lag)和后N行的数据(Lead)作为独立的列。
这种操作可以代替表的自联接，并且LAG和LEAD有更高的效率，其中over()表示当前查询的结果集对象，括号里面的语句则表示对这个结果集进行处理。

函数介绍

LAG

LAG(col,n,DEFAULT) 用于统计窗口内往上第n行值
参数1为列名，参数2为往上第n行（可选，默认为1），参数3为默认值（当往上第n行为NULL时候，取默认值，如不指定，则为NULL）

LEAD

与LAG相反
LEAD(col,n,DEFAULT) 用于统计窗口内往下第n行值
参数1为列名，参数2为往下第n行（可选，默认为1），参数3为默认值（当往下第n行为NULL时候，取默认值，如不指定，则为NULL）

场景

问题

用户Peter在浏览网页，在某个时刻，Peter点进了某个页面，过一段时间后，Peter又进入了另外一个页面，如此反复，那怎么去统计Peter在某个特定网页的停留时间呢，又或是怎么统计某个网页用户停留的总时间呢？

数据准备

现在用户的行为都被采集了，处理转换到hive数据表，表结构如下：

create table test.user_log(
userid string,
time string,
url string
) row format delimited fields terminated by ',';

记录数据：

+------------------+----------------------+---------------+--+
| user_log.userid | user_log.time | user_log.url |
+------------------+----------------------+---------------+--+
| Peter | 2015-10-12 01:10:00 | url1 |
| Peter | 2015-10-12 01:15:10 | url2 |
| Peter | 2015-10-12 01:16:40 | url3 |
| Peter | 2015-10-12 02:13:00 | url4 |
| Peter | 2015-10-12 03:14:30 | url5 |
| Marry | 2015-11-12 01:10:00 | url1 |
| Marry | 2015-11-12 01:15:10 | url2 |
| Marry | 2015-11-12 01:16:40 | url3 |
| Marry | 2015-11-12 02:13:00 | url4 |
| Marry | 2015-11-12 03:14:30 | url5 |
+------------------+----------------------+---------------+--+

分析步骤

获取用户在某个页面停留的起始与结束时间

select userid,
time stime,
lead(time) over(partition by userid order by time) etime,
url
from test.user_log;

结果：

+---------+----------------------+----------------------+-------+--+
| userid | stime | etime | url |
+---------+----------------------+----------------------+-------+--+
| Marry | 2015-11-12 01:10:00 | 2015-11-12 01:15:10 | url1 |
| Marry | 2015-11-12 01:15:10 | 2015-11-12 01:16:40 | url2 |
| Marry | 2015-11-12 01:16:40 | 2015-11-12 02:13:00 | url3 |
| Marry | 2015-11-12 02:13:00 | 2015-11-12 03:14:30 | url4 |
| Marry | 2015-11-12 03:14:30 | NULL | url5 |
| Peter | 2015-10-12 01:10:00 | 2015-10-12 01:15:10 | url1 |
| Peter | 2015-10-12 01:15:10 | 2015-10-12 01:16:40 | url2 |
| Peter | 2015-10-12 01:16:40 | 2015-10-12 02:13:00 | url3 |
| Peter | 2015-10-12 02:13:00 | 2015-10-12 03:14:30 | url4 |
| Peter | 2015-10-12 03:14:30 | NULL | url5 |
+---------+----------------------+----------------------+-------+--+

计算用户在页面停留的时间间隔（实际分析当中，这里要做数据清洗工作，如果一个用户停留了4、5个小时，那这条记录肯定是不可取的。）

select userid,
time stime,
lead(time) over(partition by userid order by time) etime,
UNIX_TIMESTAMP(lead(time) over(partition by userid order by time),'yyyy-MM-dd HH:mm:ss')- UNIX_TIMESTAMP(time,'yyyy-MM-dd HH:mm:ss') period,
url
from test.user_log;

结果：

+---------+----------------------+----------------------+---------+-------+--+
| userid | stime | etime | period | url |
+---------+----------------------+----------------------+---------+-------+--+
| Marry | 2015-11-12 01:10:00 | 2015-11-12 01:15:10 | 310 | url1 |
| Marry | 2015-11-12 01:15:10 | 2015-11-12 01:16:40 | 90 | url2 |
| Marry | 2015-11-12 01:16:40 | 2015-11-12 02:13:00 | 3380 | url3 |
| Marry | 2015-11-12 02:13:00 | 2015-11-12 03:14:30 | 3690 | url4 |
| Marry | 2015-11-12 03:14:30 | NULL | NULL | url5 |
| Peter | 2015-10-12 01:10:00 | 2015-10-12 01:15:10 | 310 | url1 |
| Peter | 2015-10-12 01:15:10 | 2015-10-12 01:16:40 | 90 | url2 |
| Peter | 2015-10-12 01:16:40 | 2015-10-12 02:13:00 | 3380 | url3 |
| Peter | 2015-10-12 02:13:00 | 2015-10-12 03:14:30 | 3690 | url4 |
| Peter | 2015-10-12 03:14:30 | NULL | NULL | url5 |
+---------+----------------------+----------------------+---------+-------+--+

计算每个页面停留的总时间，某个用户访问某个页面的总时间

select nvl(url,'-1') url,
nvl(userid,'-1') userid,
sum(period) totol_peroid from (
select userid,
time stime,
lead(time) over(partition by userid order by time) etime,
UNIX_TIMESTAMP(lead(time) over(partition by userid order by time),'yyyy-MM-dd HH:mm:ss')- UNIX_TIMESTAMP(time,'yyyy-MM-dd HH:mm:ss') period,
url
from test.user_log
) a group by url, userid with rollup;

结果：

+-------+---------+---------------+--+
| url | userid | totol_peroid |
+-------+---------+---------------+--+
| -1 | -1 | 14940 |
| url1 | -1 | 620 |
| url1 | Marry | 310 |
| url1 | Peter | 310 |
| url2 | -1 | 180 |
| url2 | Marry | 90 |
| url2 | Peter | 90 |
| url3 | -1 | 6760 |
| url3 | Marry | 3380 |
| url3 | Peter | 3380 |
| url4 | -1 | 7380 |
| url4 | Marry | 3690 |
| url4 | Peter | 3690 |
| url5 | -1 | NULL |
| url5 | Marry | NULL |
| url5 | Peter | NULL |
+-------+---------+---------------+--+

Hive 分析函数lead、lag实例应用的更多相关文章

Hive 窗口函数LEAD LAG FIRST_VALUE LAST_VALUE
窗口函数(window functions)对多行进行操作,并为查询中的每一行返回一个值. OVER()子句能将窗口函数与其他分析函数(analytical functions)和报告函数(repor ...
oracle函数中lead,lag,over,partition by 的使用
lead,lag函数的分析 http://blog.csdn.net/mazongqiang/article/details/7621328 举例如下: SQL> select * from ...
Hive窗口函数之LAG、LEAD、FIRST_VALUE、LAST_VALUE的用法
一.创建表: create table windows_ss ( polno string, eff_date string, userno string ) ROW FORMAT DELIMITED ...
大数据学习day28-----hive03------1. null值处理，子串，拼接，类型转换 2.行转列，列转行 3. 窗口函数（over，lead,lag等函数） 4.rank（行号函数）5. json解析函数 6.jdbc连接hive，企业级调优
1. null值处理,子串,拼接,类型转换 (1) 空字段赋值(null值处理) 当表中的某个字段为null时,比如奖金,当你要统计一个人的总工资时,字段为null的值就无法处理,这个时候就可以使用N ...
Oracle 分析函数之 lag和lead
Lag和Lead分析函数可以在同一次查询中取出同一字段的前N行的数据(Lag)和后N行的数据(Lead)作为独立的列. 这种操作可以代替表的自联接,并且LAG和LEAD有更高的效率. /*语法*/ ...
oracle 列相减——(Oracle分析函数Lead()，Lag())
lag和lead函数,用于取出数据的前n行的数据和后n行的数据,当然要和over(order by)一起组合其实这2个函数的作用非常好理解,Lead()就是取当前顺序的下一条记录,相对Lag()就是 ...
oracle listagg函数、lag函数、lead函数实例
Oracle大师Thomas Kyte在他的经典著作中,反复强调过一个实现需求方案选取顺序: “如果你可以使用一句SQL解决的需求,就使用一句SQL:如果不可以,就考虑PL/SQL是否可以:如果PL/ ...
over 分析函数之 lag() lead()
/*语法*/ lag(exp_str,offset,defval) over() 取前 Lead(exp_str,offset,defval) over() 取后 --exp_str要取的列 -- ...
Oracle Sql优化之lead,lag分析函数
1.表中有四个字段:人员编号,开始时间,结束时间,类型,数据ID,需要实现如下需求 a.当类型为-1时,丢弃该记录 b.当类型为-1时,且前一行结束时间为null,当前行的开始时间-1作为前一行的结束 ...

随机推荐

八个cmd 命令
一,ping 它是用来检查网络是否通畅或者网络连接速度的命令.作为一个生活在网络上的管理员或者黑客来说,ping命令是第一个必须掌握的DOS命令,它所利用的原理是这样的:网络上的机器都有唯一确定的IP ...
利用XML序列化和Asp.Net Web缓存实现站点配置文件
我们经常会遇到这样的场景: 今天来了个业务,需要加一个字段,但是考虑的以后可能有变动,需要配成“活”的. 一般最初的做法就是加一个配置到Web.Config文件的AppSettings中去.但是这样有 ...
Django之model基础（增删改查）
一.ORM 映射关系表名 <-------> 类名字段 <-------> 属性表记录 <------->类实例对象二.创建表(建立模型) 在创建表之前的准备 ...
Python开发环境Wing IDE如何进行命令行调试
Wing IDE专业的调试探针提供了一种强大的方法来发现和解决复杂的错误.这很像Python Shell但允许用户直接参与进已经暂停的调试程序中: 通过键入在刚才发生异常的地方键入下列数值进行尝试: ...
uLua学习之读取外部Lua脚本（四）
前言上节说到了Lua脚本与unity3d中C#脚本的数据交互,但是我感觉上节中的数理方式不太好,因为我们是把Lua脚本以字符串形式粘贴到C#脚本中的,如果读取配置数据都这样做的话,那就太可怕了.想想 ...
python之__init__使用方法
定义类的时候,若是添加__init__方法,那么在创建类的实例的时候,实例会自动调用这个方法,一般用来对实例的属性进行初使化.比如:class testClass: def __init__(self ...
Visual Studio 2015 终于还是装上了
win8.1系统 vs2015.preview_ult_CHT.iso 大小4.46G, http://download.microsoft.com/download/9/9/1/99133C05-3 ...
LeetCode Merge Two Sorted Lists 归并排序
题意: 将两个有序的链表归并为一个有序的链表. 思路: 设合并后的链表为head,现每次要往head中加入一个元素,该元素要么属于L1,要么属于L2,可想而知,此元素只能是L1或者L2的首个元素, ...
详细讲解：yii 添加外置参数高级版本
在YII中,添加状态参数的形式首先,我们在advanced\common\config\params.php文件中,添加我们要设置的参数: 要在控制器中进行使用的话,形式为:\Yii::$app-& ...
【BZOJ4540】 [HNOI2016] 序列（莫队）
点此看题面大致题意: 求出一个序列的一段区间中所有子序列最小值之和. 莫队这道题其实是一道莫队题. 但是需要大量的预处理. 预处理先考虑预处理两个数组$lst_i$和$nxt_i$,分别 ...

Hive 分析函数lead、lag实例应用