hive的窗口函数1

Hive中提供了越来越多的分析函数，用于完成负责的统计分析。抽时间将所有的分析窗口函数理一遍，将陆续发布。
今天先看几个基础的，SUM、AVG、MIN、MAX。
用于实现分组内所有和连续累积的统计。

1.数据准备

本地文件上的文件

(my_python_env)[root@hadoop26 data]# cat cookie

cookie1,--,

cookie1,--,

cookie1,--,

cookie1,--,

cookie1,--,

cookie1,--,

cookie1,--,

吧本地文件系统上的文件上传到hdfs上，并为此数据建立外部表

(my_python_env)[root@hadoop26 data]# hadoop fs -put cookie /cookie

hive->

create external table cookie (

cookieid string,

createtime string,

pv int

)

row format delimited

fields terminated by ','

stored as textfile

location '/cookie';

验证表中是否有数据：

hive (default)> select * from cookie;

OK

cookie.cookieid    cookie.createtime    cookie.pv

cookie1    --

cookie1    --

cookie1    --

cookie1    --

cookie1    --

cookie1    --

cookie1    --

Time taken: 0.098 seconds, Fetched:  row(s)

窗口统计：

select cookieid,createtime,pv,

sum(pv) over(partition by cookieid order by createtime) as pv1,--默认为起点到当前行

sum(pv) over(partition by cookieid order by createtime rows between unbounded preceding and current row) as pv2,--current row代表当前行

sum(pv) over(partition by cookieid) as pv3,--如果不指定rows between，统计所有行

sum(pv) over(partition by cookieid order by createtime rows between  preceding and current row) as pv4,--当前行+往前3行

sum(pv) over(partition by cookieid order by createtime rows between  preceding and  following) as pv5,--当前行+往前3行+往后1行

sum(pv) over(partition by cookieid order by createtime rows between current row and unbounded following) as pv6

from cookie;

统计结果：

OK

cookieid    createtime    pv    pv1    pv2    pv3    pv4    pv5    pv6

cookie1        --

cookie1        --

cookie1        --

cookie1        --

cookie1        --

cookie1        --

cookie1        --

Time taken: 49.42 seconds, Fetched:  row(s)

注意,结果和ORDER BY相关,默认为升序

如果不指定ROWS BETWEEN,默认为从起点到当前行;
如果不指定ORDER BY，则将分组内所有值累加;
关键是理解ROWS BETWEEN含义,也叫做WINDOW子句：
PRECEDING：往前
FOLLOWING：往后
CURRENT ROW：当前行
UNBOUNDED：起点，UNBOUNDED PRECEDING 表示从前面的起点， UNBOUNDED FOLLOWING：表示到后面的终点

–其他AVG，MIN，MAX，和SUM用法一样。

转自：http://lxw1234.com/archives/2015/04/176.htm

hive的窗口函数1的更多相关文章

Hive分析窗口函数(一) SUM,AVG,MIN,MAX
Hive分析窗口函数(一) SUM,AVG,MIN,MAX Hive分析窗口函数(一) SUM,AVG,MIN,MAX Hive中提供了越来越多的分析函数,用于完成负责的统计分析.抽时间将所有的分析窗 ...
【Hadoop离线基础总结】hive的窗口函数
hive的窗口函数概述 hive中一般求取TopN时就需要用到窗口函数专业窗口函数一般有三个 rank() over dense rank() over row_number() over 实例 ...
hive之窗口函数
窗口函数 1．相关函数说明 COVER():指定分析函数工作的数据窗口大小,这个数据窗口大小可能会随着行的变而变化 CURRENT ROW:当前行 n PRECEDING:往前n行数据 n FOLLO ...
【Hive】窗口函数
我们都知道在sql中有一类函数叫做聚合函数,例如sum().avg().max()等等, 这类函数可以将多行数据按照规则聚集为一行,一般来讲聚集后的行数是要少于聚集前的行数的. 但是有时我们想要既显示 ...
hive 中窗口函数row_number,rank,dense_ran,ntile分析函数的用法
hive中一般取top n时,row_number(),rank,dense_ran()这三个函数就派上用场了, 先简单说下这三函数都是排名的,不过呢还有点细微的区别. 通过代码运行结果一看就明白了. ...
hive的窗口函数cume_dist、fercent_rank
一.cume_dist 这两个序列分析函数不是很常用,这里也介绍一下.注意: 序列函数不支持WINDOW子句. 数据准备: d1,user1, d1,user2, d1,user3, d2,user4 ...
hive的窗口函数ntile、row_number、rank
一.ntile 序列函数不支持window子句数据准备: cookie1,--, cookie1,--, cookie1,--, cookie1,--, cookie1,--, cookie1,-- ...
Hive分析窗口函数
数据准备 CREATE EXTERNAL TABLE lxw1234 ( cookieid string, createtime string, --day pv INT ) ROW FORMAT D ...
Hive学习之路（十七）Hive分析窗口函数(五) GROUPING SETS、GROUPING__ID、CUBE和ROLLUP
概述 GROUPING SETS,GROUPING__ID,CUBE,ROLLUP 这几个分析函数通常用于OLAP中,不能累加,而且需要根据不同维度上钻和下钻的指标统计,比如,分小时.天.月的UV数. ...

随机推荐

wildcard ，notdir ，patsubst ，obj=$(dir:%.c=%.o)
Makefile中wildcard的介绍在Makefile规则中,通配符会被自动展开.但在变量的定义和函数引用时,通配符将失效.这种情况下如果需要通配符有效,就需要使用函数“wildcard”,它的 ...
Android JUnit test
Android单元测试步骤 1.修改AndroidManifest.xml文件. 添加instrumentation节点.其中name是固定值,targetPackage为需要测试的类所在的包.如: ...
tcpdump抓取ftp密码
步骤: 1.登陆ftp服务器,执行命令: tcpdump -i wlan0 -w password.bin -c 500 port 21 2.有人登陆后,执行: tcpdump -v -XX -r p ...
CentOS 下安装 LEMP 服务(nginx、MariaDB/MySQL 和 php)
转载自:https://linux.cn/article-4314-1.html 编译自:http://xmodulo.com/install-lemp-stack-centos.html 作者: D ...
cssText基本使用及注意事项
一.cssText之起步那些年,我们是这样设置样式的: xxx.style.width = "233px"; xxx.style.position = "fixed&q ...
UVA 1363 Joseph's Problem
https://vjudge.net/problem/UVA-1363 n 题意:求 Σ k%i i=1 除法分块如果 k/i==k/(i+1)=p 那么 k%(i+1)=k-(i+1)*p= k ...
使用JMeter录制脚本并调试
仍然以禅道中添加bug为例进行录制第一步:在JMeter中添加线程组,命名为AddBugByJMeter 第二步:在线程组下添加HTTP请求默认值添加->配置元件->HTTP请求默认值 ...
HDFS fs 基本命令
https://hadoop.apache.org/docs/r2.7.1/hadoop-project-dist/hadoop-common/FileSystemShell.html#Overvie ...
【BZOJ1085】【SCOI2005】骑士精神 [A*搜索]
骑士精神 Time Limit: 10 Sec Memory Limit: 162 MB[Submit][Status][Discuss] Description 在一个5×5的棋盘上有12个白色的 ...
Mac 上真机调试cocos2d-x-3.16的test程序
文章比较长,一个算是新手又不是新手的程序员的解决过程. 一 xcode中打开项目首先,下载完成cocos2d-x-3.16之后,解压,然后在根目录build目录下双击cocos2d_tests.xc ...

hive的窗口函数1

hive的窗口函数1的更多相关文章

随机推荐

热门专题