Hive的分析函数又叫窗口函数,在oracle中就有这样的分析函数,主要用来做数据统计分析的。

Lag和Lead分析函数可以在同一次查询中取出同一字段的前N行的数据(Lag)和后N行的数据(Lead)作为独立的列。
这种操作可以代替表的自联接,并且LAG和LEAD有更高的效率,其中over()表示当前查询的结果集对象,括号里面的语句则表示对这个结果集进行处理。
 

函数介绍

LAG

LAG(col,n,DEFAULT) 用于统计窗口内往上第n行值
参数1为列名,参数2为往上第n行(可选,默认为1),参数3为默认值(当往上第n行为NULL时候,取默认值,如不指定,则为NULL)

LEAD

与LAG相反
LEAD(col,n,DEFAULT) 用于统计窗口内往下第n行值
参数1为列名,参数2为往下第n行(可选,默认为1),参数3为默认值(当往下第n行为NULL时候,取默认值,如不指定,则为NULL)

 

场景

问题

用户Peter在浏览网页,在某个时刻,Peter点进了某个页面,过一段时间后,Peter又进入了另外一个页面,如此反复,那怎么去统计Peter在某个特定网页的停留时间呢,又或是怎么统计某个网页用户停留的总时间呢?

数据准备

现在用户的行为都被采集了,处理转换到hive数据表,表结构如下:
  1. create table test.user_log(
  2. userid string,
  3. time string,
  4. url string
  5. ) row format delimited fields terminated by ',';

记录数据:

  1. +------------------+----------------------+---------------+--+
  2. | user_log.userid  |    user_log.time     | user_log.url  |
  3. +------------------+----------------------+---------------+--+
  4. | Peter            | 2015-10-12 01:10:00  | url1          |
  5. | Peter            | 2015-10-12 01:15:10  | url2          |
  6. | Peter            | 2015-10-12 01:16:40  | url3          |
  7. | Peter            | 2015-10-12 02:13:00  | url4          |
  8. | Peter            | 2015-10-12 03:14:30  | url5          |
  9. | Marry            | 2015-11-12 01:10:00  | url1          |
  10. | Marry            | 2015-11-12 01:15:10  | url2          |
  11. | Marry            | 2015-11-12 01:16:40  | url3          |
  12. | Marry            | 2015-11-12 02:13:00  | url4          |
  13. | Marry            | 2015-11-12 03:14:30  | url5          |
  14. +------------------+----------------------+---------------+--+

分析步骤

获取用户在某个页面停留的起始与结束时间

  1. select userid,
  2. time stime,
  3. lead(time) over(partition by userid order by time) etime,
  4. url
  5. from test.user_log;

结果:

  1. +---------+----------------------+----------------------+-------+--+
  2. | userid  |        stime         |        etime         |  url  |
  3. +---------+----------------------+----------------------+-------+--+
  4. | Marry   | 2015-11-12 01:10:00  | 2015-11-12 01:15:10  | url1  |
  5. | Marry   | 2015-11-12 01:15:10  | 2015-11-12 01:16:40  | url2  |
  6. | Marry   | 2015-11-12 01:16:40  | 2015-11-12 02:13:00  | url3  |
  7. | Marry   | 2015-11-12 02:13:00  | 2015-11-12 03:14:30  | url4  |
  8. | Marry   | 2015-11-12 03:14:30  | NULL                 | url5  |
  9. | Peter   | 2015-10-12 01:10:00  | 2015-10-12 01:15:10  | url1  |
  10. | Peter   | 2015-10-12 01:15:10  | 2015-10-12 01:16:40  | url2  |
  11. | Peter   | 2015-10-12 01:16:40  | 2015-10-12 02:13:00  | url3  |
  12. | Peter   | 2015-10-12 02:13:00  | 2015-10-12 03:14:30  | url4  |
  13. | Peter   | 2015-10-12 03:14:30  | NULL                 | url5  |
  14. +---------+----------------------+----------------------+-------+--+

计算用户在页面停留的时间间隔(实际分析当中,这里要做数据清洗工作,如果一个用户停留了4、5个小时,那这条记录肯定是不可取的。)

  1. select userid,
  2. time stime,
  3. lead(time) over(partition by userid order by time) etime,
  4. UNIX_TIMESTAMP(lead(time) over(partition by userid order by time),'yyyy-MM-dd HH:mm:ss')- UNIX_TIMESTAMP(time,'yyyy-MM-dd HH:mm:ss') period,
  5. url
  6. from test.user_log;

结果:

  1. +---------+----------------------+----------------------+---------+-------+--+
  2. | userid  |        stime         |        etime         | period  |  url  |
  3. +---------+----------------------+----------------------+---------+-------+--+
  4. | Marry   | 2015-11-12 01:10:00  | 2015-11-12 01:15:10  | 310     | url1  |
  5. | Marry   | 2015-11-12 01:15:10  | 2015-11-12 01:16:40  | 90      | url2  |
  6. | Marry   | 2015-11-12 01:16:40  | 2015-11-12 02:13:00  | 3380    | url3  |
  7. | Marry   | 2015-11-12 02:13:00  | 2015-11-12 03:14:30  | 3690    | url4  |
  8. | Marry   | 2015-11-12 03:14:30  | NULL                 | NULL    | url5  |
  9. | Peter   | 2015-10-12 01:10:00  | 2015-10-12 01:15:10  | 310     | url1  |
  10. | Peter   | 2015-10-12 01:15:10  | 2015-10-12 01:16:40  | 90      | url2  |
  11. | Peter   | 2015-10-12 01:16:40  | 2015-10-12 02:13:00  | 3380    | url3  |
  12. | Peter   | 2015-10-12 02:13:00  | 2015-10-12 03:14:30  | 3690    | url4  |
  13. | Peter   | 2015-10-12 03:14:30  | NULL                 | NULL    | url5  |
  14. +---------+----------------------+----------------------+---------+-------+--+

计算每个页面停留的总时间,某个用户访问某个页面的总时间

  1. select nvl(url,'-1') url,
  2. nvl(userid,'-1') userid,
  3. sum(period) totol_peroid from (
  4. select userid,
  5. time stime,
  6. lead(time) over(partition by userid order by time) etime,
  7. UNIX_TIMESTAMP(lead(time) over(partition by userid order by time),'yyyy-MM-dd HH:mm:ss')- UNIX_TIMESTAMP(time,'yyyy-MM-dd HH:mm:ss') period,
  8. url
  9. from test.user_log
  10. ) a group by url, userid with rollup;

结果:

  1. +-------+---------+---------------+--+
  2. |  url  | userid  | totol_peroid  |
  3. +-------+---------+---------------+--+
  4. | -1    | -1      | 14940         |
  5. | url1  | -1      | 620           |
  6. | url1  | Marry   | 310           |
  7. | url1  | Peter   | 310           |
  8. | url2  | -1      | 180           |
  9. | url2  | Marry   | 90            |
  10. | url2  | Peter   | 90            |
  11. | url3  | -1      | 6760          |
  12. | url3  | Marry   | 3380          |
  13. | url3  | Peter   | 3380          |
  14. | url4  | -1      | 7380          |
  15. | url4  | Marry   | 3690          |
  16. | url4  | Peter   | 3690          |
  17. | url5  | -1      | NULL          |
  18. | url5  | Marry   | NULL          |
  19. | url5  | Peter   | NULL          |
  20. +-------+---------+---------------+--+

Hive 分析函数lead、lag实例应用的更多相关文章

  1. Hive 窗口函数LEAD LAG FIRST_VALUE LAST_VALUE

    窗口函数(window functions)对多行进行操作,并为查询中的每一行返回一个值. OVER()子句能将窗口函数与其他分析函数(analytical functions)和报告函数(repor ...

  2. oracle函数中lead,lag,over,partition by 的使用

    lead,lag函数的分析 http://blog.csdn.net/mazongqiang/article/details/7621328 举例如下: SQL> select *  from ...

  3. Hive窗口函数之LAG、LEAD、FIRST_VALUE、LAST_VALUE的用法

    一.创建表: create table windows_ss ( polno string, eff_date string, userno string ) ROW FORMAT DELIMITED ...

  4. 大数据学习day28-----hive03------1. null值处理,子串,拼接,类型转换 2.行转列,列转行 3. 窗口函数(over,lead,lag等函数) 4.rank(行号函数)5. json解析函数 6.jdbc连接hive,企业级调优

    1. null值处理,子串,拼接,类型转换 (1) 空字段赋值(null值处理) 当表中的某个字段为null时,比如奖金,当你要统计一个人的总工资时,字段为null的值就无法处理,这个时候就可以使用N ...

  5. Oracle 分析函数之 lag和lead

    Lag和Lead分析函数可以在同一次查询中取出同一字段的前N行的数据(Lag)和后N行的数据(Lead)作为独立的列. 这种操作可以代替表的自联接,并且LAG和LEAD有更高的效率. /*语法*/   ...

  6. oracle 列相减——(Oracle分析函数Lead(),Lag())

    lag和lead函数,用于取出数据的前n行的数据和后n行的数据,当然要和over(order by)一起组合 其实这2个函数的作用非常好理解,Lead()就是取当前顺序的下一条记录,相对Lag()就是 ...

  7. oracle listagg函数、lag函数、lead函数 实例

    Oracle大师Thomas Kyte在他的经典著作中,反复强调过一个实现需求方案选取顺序: “如果你可以使用一句SQL解决的需求,就使用一句SQL:如果不可以,就考虑PL/SQL是否可以:如果PL/ ...

  8. over 分析函数之 lag() lead()

    /*语法*/ lag(exp_str,offset,defval) over()  取前 Lead(exp_str,offset,defval) over()  取后 --exp_str要取的列 -- ...

  9. Oracle Sql优化之lead,lag分析函数

    1.表中有四个字段:人员编号,开始时间,结束时间,类型,数据ID,需要实现如下需求 a.当类型为-1时,丢弃该记录 b.当类型为-1时,且前一行结束时间为null,当前行的开始时间-1作为前一行的结束 ...

随机推荐

  1. ubuntu命令收集

    软件操作: - sudo apt-get install xxx 安装软件 - sudo apt-get --purge remove XXX 卸载软件 - sudo apt-get -f insta ...

  2. ngnix反向代理

    https://blog.csdn.net/sherry_chan/article/details/79055211

  3. java集合杂谈

    一:java集合框架如下图所示: 大致说明:看上面的框架图,先抓住它的主干,即Collection和Map. 1.Collection是一个接口,是高度抽象出来的集合,它包含了集合的基本操作和属性.C ...

  4. 如何下载Oracle E-Business Suite (12.2.6) for Microsoft Windows x64 (64-bit)

    下载地址:https://edelivery.oracle.com/ 使用您的 Oracle 账户进行登录.如果您没有该账户, 请注册 Oracle 账户.     Oracle Software D ...

  5. SpringBoot集成mybatis和mybatis generator

    利用搭建的基本的spring boot框架,集成 mybatis + generator 1.设置 maven 的相关配置: File  - setting - maven 设置 Maven home ...

  6. winform中获取当前周次

    /*方法一*/ var dt = DateTime.Now; //找到今年的第一天是周几 int firstWeekend = Convert.ToInt32(DateTime.Parse(dt.Ye ...

  7. PowerShell (407) Proxy Authentication Required

    $Client = New-Object -TypeName System.Net.WebClient $Client.Proxy.Credentials = [System.Net.Credenti ...

  8. VMware虚拟机配置文件(.vmx)损坏修复

    我的虚拟机为VM14    装的ubuntu14.04server版 遇到ubuntu打不开,上网查阅了博客写的解决办法,尝试并解决了,以下分享个人心得: 首先进入虚拟机中系统安装的位置 查看日志文件 ...

  9. leetcode--3

    1. 题目: Longest Substring Without Repeating Characters Given a string, find the length of the longest ...

  10. Android(java)学习笔记98:如何让你的GridView不再滚动

    1. 如何让你的GridView不再滚动: GridView显示不完整的原因是因为,他的外层也套用了一个滑动的控件,这个解决办法是:重写GridView,是控制GridView不能滚动,就是写一个类继 ...