Hive——join的使用
Hive——join的使用
hive中常用的join有:inner join、left join 、right join 、full join、left semi join、cross join、mulitiple
在hive中建立两张表,用于测试:
hive> select * from rdb_a;
OK
1 lucy
2 jack
3 tony hive> select * from rdb_b;
OK
1 12
2 22
4 32
一、基本join使用
1、内关联([inner] join):只返回关联上的结果
select a.id,a.name,b.age from rdb_a a inner join rdb_b b on a.id=b.id; Total MapReduce CPU Time Spent: 2 seconds 560 msec
OK
1 lucy 12
2 jack 22
Time taken: 47.419 seconds, Fetched: 2 row(s)
2、左关联(left [outer] join):以左表为主
select a.id,a.name,b.age from rdb_a a left join rdb_b b on a.id=b.id; Total MapReduce CPU Time Spent: 1 seconds 240 msec
OK
1 lucy 12
2 jack 22
3 tony NULL
Time taken: 33.42 seconds, Fetched: 3 row(s)
3、右关联(right [outer] join):以右表为主
select a.id,a.name,b.age from rdb_a a right join rdb_b b on a.id=b.id; Total MapReduce CPU Time Spent: 2 seconds 130 msec
OK
1 lucy 12
2 jack 22
NULL NULL 32
Time taken: 32.7 seconds, Fetched: 3 row(s)
4、全关联(full [outer] join):以两个表的记录为基准,返回两个表的记录去重之和,关联不上的字段为NULL。
select a.id,a.name,b.age from rdb_a a full join rdb_b b on a.id=b.id; Total MapReduce CPU Time Spent: 5 seconds 540 msec
OK
1 lucy 12
2 jack 22
3 tony NULL
NULL NULL 32
Time taken: 42.938 seconds, Fetched: 4 row(s)
5、left semi join:以LEFT SEMI JOIN关键字前面的表为主表,返回主表的KEY也在副表中的记录。
select a.id,a.name from rdb_a a left semi join rdb_b b on a.id=b.id; Total MapReduce CPU Time Spent: 3 seconds 300 msec
OK
1 lucy
2 jack
Time taken: 31.105 seconds, Fetched: 2 row(s) 其实就相当于:select a.id,a.name from rdb_a a where a.id in(select b.id from rdb_b b );
6、笛卡尔积关联(cross join):返回两个表的笛卡尔积结果,不需要指定关联键
select a.id,a.name,b.age from rdb_a a cross join rdb_b b; Total MapReduce CPU Time Spent: 1 seconds 260 msec
OK
1 lucy 12
1 lucy 22
1 lucy 32
2 jack 12
2 jack 22
2 jack 32
3 tony 12
3 tony 22
3 tony 32
Time taken: 24.727 seconds, Fetched: 9 row(s)
二、Common Join与Map Join
利用hive进行join连接操作,相较于MR有两种执行方案,一种为common join,另一种为map join ,map join是相对于common join的一种优化,省去shullfe和reduce的过程,大大的降低的作业运行的时间。
Common Join(也称之为shufflejoiin/reducejoin)

过程:
1>首先会启动一个Task,Mapper会去读表HDFS上两张X/Y表中的数据
2>Mapper处理过数据再经过shuffle处理
3>最后由reduce输出join结果
缺点 :
1>存在shuffle过程,效率低
2>每张表都要去磁盘读取,磁盘IO大
Map Join

过程:
1>mapjoin首先会通过本地MapReduce Task将要join的小表转成Hash Table Files,然后加载到分布式缓存中
2>Mapperh会去缓存中读取小表数据来和Big Table数据进行join
3>Map直接给出结果
优点: 没有shuffle/Reduce过程,效率提高
缺点 :由于小表都加载到内存当中,读内存的要求提高了
hive中专门有个参数来设置是否自动将commmon join 转化为map join:hive.auto.convert.join。
当hive.auto.convert.join=true hive会为我们自动转换。
Hive——join的使用的更多相关文章
- Hive JOIN使用详解
转自http://shiyanjun.cn/archives/588.html Hive是基于Hadoop平台的,它提供了类似SQL一样的查询语言HQL.有了Hive,如果使用过SQL语言,并且不理解 ...
- Hive Join
最近被朋友问到有关于Hive Join的问题,保守回答过后,来补充补充知识: Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能. 一.Hi ...
- Hive JOIN的基本操作 及 内部实现
1.HIVE基本操作: [一起学Hive]之十一-Hive中Join的类型和用法 注:HIve不支持非等值连接: 什么是等值连接: //Oracle SQL 不等值连接 //通过不等值连接查找7788 ...
- Hive Join优化
在阐述Hive Join具体的优化方法之前,首先看一下Hive Join的几个重要特点,在实际使用时也可以利用下列特点做相应优化: 1. 只支持等值连接 2. 底层会将写的HQL语句转换为MapRed ...
- hive join 优化
common join : 即reducer join,瓶颈在shuffle阶段,会产生较大的网络io: map join:即把小表放前面,扫描后放入每个节点的内存,在map阶段进行匹配: 开启map ...
- hive: join 遇到问题
在表连接时遇到一个问题: insert overwrite table BF_EVT_CRD_CRT_TRAD2 select BF_EVT_CRD_CRT_TRAD.*, jjkdjk.CUST_N ...
- 转载:几种 hive join 类型简介
作为数据分析中经常进行的join 操作,传统DBMS 数据库已经将各种算法优化到了极致,而对于hadoop 使用的mapreduce 所进行的join 操作,去年开始也是有各种不同的算法论文出现,讨论 ...
- hive join的三种优化方式
原网址:https://blog.csdn.net/liyaohhh/article/details/50697519 hive在实际的应用过程中,大部份分情况都会涉及到不同的表格的连接, 例如在进行 ...
- hive join 优化 --小表join大表
1.小.大表 join 在小表和大表进行join时,将小表放在前边,效率会高.hive会将小表进行缓存. 2.mapjoin 使用mapjoin将小表放入内存,在map端和大表逐一匹配.从而省去red ...
随机推荐
- 主成分分析法(PCA)原理和步骤
主成分分析法(PCA)原理和步骤 主成分分析(Principal Component Analysis,PCA)是一种多变量统计方法,它是最常用的降维方法之一,通过正交变换将一组可能存在相关性的变量数 ...
- C#中关于Cookie的理解
本文链接出自:https://www.cnblogs.com/xiangzhe-C/p/4230042.html 1.Cookie简介 Cookie 提供了一种在 Web 应用程序中存储用户特定信息的 ...
- MySQL笔记03(黑马)
今日内容 DQL:查询语句 排序查询 聚合函数 分组查询 分页查询 约束 多表之间的关系 范式 数据库的备份和还原 DQL:查询语句 排序查询 语法:order by 子句 order by 排序字段 ...
- [论文阅读笔记] Adversarial Mutual Information Learning for Network Embedding
[论文阅读笔记] Adversarial Mutual Information Learning for Network Embedding 本文结构 解决问题 主要贡献 算法原理 实验结果 参考文献 ...
- 【NX二次开发】获取相邻面UF_MODL_ask_adjac_faces
获取箭头指示的面的相邻面 源码: 1 extern DllExport void ufsta(char *param, int *returnCode, int rlen) 2 { 3 UF_init ...
- Pytest学习笔记2-setup和teardown
前言 我们在做自动化的时候,常常有这样的需求: 执行每一条用例时,都重新启动一次浏览器 每一条用例执行结束时,都清除测试数据 在unittest中,我们可以使用 setUp() 和 tearDown( ...
- Redis:我是如何与客户端进行通信的
江湖上说,天下武功,无坚不摧,唯快不破,这句话简直是为我量身定制. 我是一个Redis服务,最引以为傲的就是我的速度,我的 QPS 能达到10万级别. 在我的手下有数不清的小弟,他们会时不时到我这来存 ...
- 从五大结构体,带你掌握鸿蒙轻内核动态内存Dynamic Memory
摘要:本文带领大家一起剖析了鸿蒙轻内核的动态内存模块的源代码,包含动态内存的结构体.动态内存池初始化.动态内存申请.释放等. 本文分享自华为云社区<鸿蒙轻内核M核源码分析系列九 动态内存Dyna ...
- 基于ABP落地领域驱动设计-00.目录和小结
<实现领域驱动设计> -- 基于 ABP Framework 实现领域驱动设计实用指南 翻译缘由 自 ABP vNext 1.0 开始学习和使用该框架,被其优雅的设计和实现吸引,适逢 AB ...
- SVN分支的创建与使用
首先放出右键菜单点击Branch/tag... 所示位置输入想新建分支的路径 然后ok就完成了 之后就是切换分支上传代码了 点击Switch... 在里面就可以切换分支了To path