hive的Query和Insert，Group by，Aggregations（聚合）操作

1、Query

（1）分区查询

在查询的过程中，采用那个分区来查询是通过系统自动的决定，但是必须是在分区列上基于where子查询。

SELECT page_views.*

FROM page_views

WHERE page_views.date >= '2008-03-01' AND page_views.date <= '2008-03-31' AND

page_views.referrer_url like '%xyz.com';

（2）、join 从集合的角度上来理解

在mysql中join的查询分为两类：（1）内联结查询（2）外联结查询；hive当然也是有两种join的查询，并且其join的查询方式跟mysql相当的类似。下面通过案例详细介绍

首先创建两个表，并插入几天记录来作为测试：

create table jn1 （name String）；

insert into table jn1 values("java1","java2","blue");

create table jn2 （name String）；

insert into table jn2 values("mysql1"),("mysql2"),("blue");

　　1）内联结查询 (可以理解为求两个表的交集)

select jn1.*,jn2.* from jn1 JOIN jn2 ON(jn1.name=jn2.name)

所得结果是：

　　2）外联结查询

外联结查询与可以分为三种查询方式：1）左外连接， 2）右外连接，3）全外联结查询

同样采用上面的两个表来进行测试。

　　i）左外连接查询 (可以理解成表a以及表a和表b的交集的集合)

　　 select jn1.* ,jn2.* from jn1 LEFT JOIN jn2 ON(jn1.name=jn2.name);

　　或者

　　 select a.* ,b.* from jn1 a LEFT JOIN jn2 b ON(a.name=b.name);

　　ii）右外连接查询(可以理解成表b以及表a和表b的交集的集合)

　　 select jn1.* ,jn2.* from jn1 RIGHT JOIN jn2 ON(jn1.name=jn2.name);

　　或者

　　 select a.* ,b.* from jn1 a RIGHT JOIN jn2 b ON(a.name=b.name);

　　iii）全外联结查询(表a和表b的并集)

　　select jn1.* ,jn2.* from jn1 FULL JOIN jn2 ON(jn1.name=jn2.name);

　　或者

　　select a.* ,b.* from jn1 a FULL JOIN jn2 b ON(a.name=b.name);

2、Group by 的查询

为了统计每一个性别不同用户的总数的查询语句可以是：

SELECT pv_users.gender, count (DISTINCT pv_users.userid) FROM pv_users GROUP BY pv_users.gender;

3、聚合计算

（1）单个聚合情况

SELECT pv_users.gender, count (DISTINCT pv_users.userid) FROM pv_users GROUP BY pv_users.gender;

（2）多个聚合可以同时计算，但是必须要有不同的列名

Multiple aggregations can be done at the same time, however, no two aggregations can have different DISTINCT columns .e.g while the following is possible

　　SELECT pv_users.gender, count(DISTINCT pv_users.userid), count(*), sum(DISTINCT pv_users.userid)

　　FROM pv_users

　 GROUP BY pv_users.gender;

如下面的多个聚合就不行：

SELECT pv_users.gender, count(DISTINCT pv_users.userid), count(DISTINCT pv_users.ip) //这两个查询之后列名重复，所以不允许

FROM pv_users

GROUP BY pv_users.gender;

4、Insert

（1）将数据插入到hive中的表中

FROM pv_users
INSERT OVERWRITE TABLE pv_gender_sum
SELECT pv_users.gender, count_distinct(pv_users.userid)
GROUP BY pv_users.gender

（2）将数据插入到hdfs中的文件中

　　INSERT OVERWRITE DIRECTORY '/user/data/tmp/pv_age_sum'
SELECT pv_users.age, count_distinct(pv_users.userid)
GROUP BY pv_users.age;

（3）动态分区插入

我们可以实现分区插入如下实现。

FROM page_view_stg pvs

INSERT OVERWRITE TABLE page_view PARTITION(dt='2008-06-08', country='US')

SELECT pvs.viewTime, pvs.userid, pvs.page_url, pvs.referrer_url, null, null, pvs.ip WHERE pvs.country = 'US'

INSERT OVERWRITE TABLE page_view PARTITION(dt='2008-06-08', country='CA')

SELECT pvs.viewTime, pvs.userid, pvs.page_url, pvs.referrer_url, null, null, pvs.ip WHERE pvs.country = 'CA'

INSERT OVERWRITE TABLE page_view PARTITION(dt='2008-06-08', country='UK')

SELECT pvs.viewTime, pvs.userid, pvs.page_url, pvs.referrer_url, null, null, pvs.ip WHERE pvs.country = 'UK';

以上实现的分区插入，存在一个问题：当增加某个国家时，那么需要在增加一个insert的语句，这样极其的不方便，为此hive提供了一个动态确定分区的方式来实现动态分区插入，只需要一条语句即可：

FROM page_view_stg pvs

INSERT OVERWRITE TABLE page_view PARTITION(dt='2008-06-08', country)

SELECT pvs.viewTime, pvs.userid, pvs.page_url, pvs.referrer_url, null, null, pvs.ip, pvs.country

（4）插入数据到本地文件中

INSERT OVERWRITE LOCAL DIRECTORY '/tmp/pv_gender_sum' SELECT pv_gender_sum.* FROM pv_gender_sum;

5、Union （连接）

它的意思是将两次或者多次的查询结果连接起来（但是它没有去重的功能）

select * from jn1 union all select * from jn2;

结果如下：

hive的Query和Insert，Group by，Aggregations（聚合）操作的更多相关文章

[Hive - LanguageManual] DML: Load, Insert, Update, Delete
LanguageManual DML Hive Data Manipulation Language Hive Data Manipulation Language Loading files int ...
hive的高级查询（group by、 order by、 join 、 distribute by、sort by、 clusrer by、 union all等）
查询操作 group by. order by. join . distribute by. sort by. clusrer by. union all 底层的实现 mapreduce 常见的聚合操 ...
REP-20147 Cannot implement column link for this detail SQL query. Converting to group link.
注:本文为原创,作为学习交流使用,转载请标明作者及出处,作者保留追究法律责任的权力. Lumen Su lzsu1989#gmail.com (#=@) www.cnblogs.com/lzsu198 ...
Hive 基本语法操练（一）：表操作
Hive 和 Mysql 的表操作语句类似,如果熟悉 Mysql,学习Hive 的表操作就非常容易了,下面对 Hive 的表操作进行深入讲解. **(1)先来创建一个表名为student的内部表** ...
elasticsearch聚合操作——本质就是针对搜索后的结果使用桶bucket（允许嵌套）进行group by，统计下分组结果，包括min/max/avg
分析 Elasticsearch有一个功能叫做聚合(aggregations),它允许你在数据上生成复杂的分析统计.它很像SQL中的GROUP BY但是功能更强大. 举个例子,让我们找到所有职员中最大 ...
mongdb group聚合操作
1.数据准备 [{"goods_id":1,"cat_id":4,"goods_name":"KD876"," ...
hive常用函数 wordCount--Hive窗口函数1.1.1 聚合开窗函数聚合开窗函数实战
第三天笔记第三天笔记 SQL练习Hive 常用函数关系运算数值计算条件函数日期函数重点!!!字符串函数Hive 中的wordCount1.1 Hive窗口函数1.1.1 聚合开窗函数聚合开窗函数实战 ...
Mybatis之执行insert、update和delete操作时自动提交
单独使用Mybaits,而没有集成Spring的话,执行insert.update和delete操作是不会自动提交的,即执行语句后不会在数据库有对应的数据变化. 解决这样的方法就是打开自动提交开关,在 ...
关于GROUP BY和聚合函数
可以这样去理解group by和聚合函数转自 http://www.cnblogs.com/wiseblog/articles/4475936.html 写在前面的话:用了好久group by,今天 ...

随机推荐

ListView实现Item上下拖动交换位置并且实现下拉刷新上拉加载更多
ListView实现Item上下拖动交换位置并且实现下拉刷新上拉加载更多 package com.example.ListViewDragItem; import android.app.Ac ...
Auty自动化测试框架第七篇——添加动作库和常量文件库
[本文出自天外归云的博客园] 添加动作库因为有很多调用的action类如果一直保存在utils中会让utils库不可维护,所以规定utils库中只放和框架本身有关的工具类,和脚本内容相关的工具类都放 ...
python之redis
Redis简单介绍如果简单地比较Redis与Memcached的区别,大多数都会得到以下观点:1 Redis不仅仅支持简单的k/v类型的数据,同时还提供list,set,zset,hash等数据结构 ...
Flowplayer-Embedding
SOURCE URL:https://flowplayer.org/docs/embedding.html Embedding Video embedding is an act where the ...
MyEclipse 10.7 添加JBOSS 6应用服务器
首先,确保你的JAVA和JBOSS的环境变量配置正确然后,在myeclipse中,window->preferences->myeclipse->servers->JBOSS- ...
滚动RollUp、压缩
声明:原创作品,转载时请注明文章来自SAP师太技术博客( 博/客/园www.cnblogs.com):www.cnblogs.com/jiangzhengjun,并以超链接形式标明文章原始出处,否则将 ...
Python学习（14）模块二
一:_name_ Python中if _name_ == '_main_'的解析当你打开一个.py文件时,经常会在代码的最下面看到if __name__ == '__main__':,现在就来介绍 ...
Oracle10g_Dataguard__161031
1.查看 redo log 信息 1.1.desc v$log ZC: 不明白这是查看什么信息... 1.2. 查看redo log file SQL> select * from v$log ...
FROM_UNIXTIME()和UNIX_TIMESTAMP()函数的区别
Unix时间戳(Unix timestamp),是一种时间表示方式,定义为从格林威治时间1970年01月01日00时00分00秒起至现在的总秒数. 在MySQL中如何格式化时间戳?在mysql中因为t ...
C++类的交叉引用
对于C++中,两个类中相互引用对方,当然只能是在指针的基础上,于是我们知道.也就是说在A类的有一个指针引用B类的成员函数或成员对象,而B类中又有一个指针来访问A中的成员函数或对象.这就是C++中类的交 ...

hive的Query和Insert，Group by，Aggregations（聚合）操作

hive的Query和Insert，Group by，Aggregations（聚合）操作的更多相关文章

随机推荐

热门专题