hive：join操作

　　hive的多表连接，都会转换成多个MR job，每一个MR job在hive中均称为Join阶段。按照join程序最后一个表应该尽量是大表，因为join前一阶段生成的数据会存在于Reducer 的buffer中，通过stream最后面的表，直接从Reducer中读取已经缓冲的中间数据结果，与后面的大表进行连接时，只需要从buffer中读取缓存的key，与大表中的指定key进行连接，速度更快，也避免内存缓冲区溢出。

SELECT a.val, b.val, c.val FROM a JOIN b ON (a.key = b.key1) JOIN c ON (c.key = b.key1);

　　另外，也可以通过一些hint信息来启发join操作，即指定那个表作为大表：

SELECT /*+ STREAMTABLE(a) */ a.val, b.val, c.val FROM a JOIN b ON (a.key = b.key1) JOIN c ON (c.key = b.key1)

　　这样，就会先对表b和c进行join。　

　　hive本身支持的子查询非常有限，Hive不支持where子句中的子查询，只允许子查询在from中出现

错误写法：

insert into table branch_atmzc_sum

Select  XT_OP_TRL, SA_TX_DT,"取款-存款",b.cr_tx_amt- a.cr_tx_amt as cr_tx_amt from branch_atmzc a join  branch_atmzc b  on (a.XT_OP_TRL = b.XT_OP_TRL and a.SA_TX_DT = b.SA_TX_DT and a.tran_cd = 'ATM存款' and b.tran_cd = 'ATM取款'), counts from branch_atmzc

group by XT_OP_TRL, SA_TX_DT,cr_tx_amt,counts;

正确写法：

insert into table branch_atmzc_sum

Select a.XT_OP_TRL, a.SA_TX_DT,"取款-存款",b.cr_tx_amt- a.cr_tx_amt ,b.counts+a.counts  from branch_atmzc a join  branch_atmzc b  on (a.XT_OP_TRL = b.XT_OP_TRL and a.SA_TX_DT = b.SA_TX_DT and a.tran_cd = 'ATM存款' and b.tran_cd = 'ATM取款')

下面详细介绍各种连接方式的应用和效率

　　hive的join类型及其就是把MR 中的几种方式都封装实现了，其中代表性的有join on、 left semi join 是使用频率最高的。

　　join on 属于common join（shuffle join/reduce join），而left semi join 属于map join（broadcast join）的一一种变体。实现上原理有差异。

Common Join

　　最普通的join，即reduce side join,最没效率的一种方式，由一个mapreduce job完成。

　　实现原理：先对大表和小表分别进行map操作，在map shuffle的阶段每一个map output key 变成了table_name_tag_prefix + join_column_value , 但是在进行partition 的时候它仍然只使用join_column_value 进行hash.

　　每一个reduce 接受所有的map 传过来的split , 在reduce 的shuffle 阶段，它将map output key 前面的table_name_tag_prefix 给舍弃掉进行比较. 因为reduce 的个数可以由小表的大小进行决定，所以对于每一个节点的reduce 一定可以将小表的split 放入内存变成hashtable. 然后将大表的每一条记录进行一条一条的比较.

基于条件的 LEFT OUTER JOIN 优化

　　左连接时，左表中出现的join字段都保留，右表没有连接上的都为空。对于带where条件的join语句，如下：

SELECT a.val, b.val FROM a LEFT OUTER JOIN b ON (a.key=b.key)

WHERE a.ds='2009-07-07' AND b.ds='2009-07-07'

　　执行顺序是，首先完成两个表的join，然后再通过where条件过滤，这样在join时会输出大量结果，耗时。

　　进一步优化：把where条件放在on后，比如：

SELECT a.val, b.val FROM a LEFT OUTER JOIN b

ON (a.key=b.key AND b.ds='2009-07-07' AND a.ds='2009-07-07'

　这样子，在join时，会对不满足条件的记录先预先过滤，效果更好。

左半连接（LEFT SEMI JOIN）

　　采用半连接的原因是：对于reduce side join，跨机器的传输量非常大，如果能够在map端过滤掉不需要进行join操作的数据，可以节省IO，提高效率。

　　实现原理：选取一个小表，假设是File1,将其参与join的可以抽取出来，保存到File3,一般都很好可以直接放到内存中。在map阶段，使用DistributedCache将File3复制到各个TaskTracker，然后可以将File2中不在File3中记录过滤掉，不参加join操作，然后剩下的reduce操作还是和reduce side join是一样的。

　　所以根据原理，更好理解：

　　（1）用了LEFT SEMI JOIN子句以后，右边的表在JOIN操作以外就不可见了，表b只能出现在on子句后面，不能出现在select和where语句中了，相当于右表只有join key参与关联计算了。

　　（2）对待右表中重复（key）时，因为left semi join是in（keySet）的关系，左表会直接跳过，而如果是join on 则会一直遍历。

　　左半连接类似IN/EXISTS的查询语句，对比如下：

SQL：

SELECT a.key, a.value FROM a WHERE a.key IN (SELECT b.key FROM b);

Hive：

SELECT a.key, a.val FROM a LEFT SEMI JOIN b ON (a.key = b.key)

注：b是其小表，b中只有join key 参与运算，不能出现在select 和where的筛选中。

关于子查询，这里提一下，Hive支持情况如下：

在0.12版本，只支持FROM子句中的子查询；
在0.13版本，也支持WHERE子句中的子查询。

join on 与 left semi on 比较输出特殊情况：

Left semi join:

select     a.level2,  a.name2,

        cast((a.alipay_fee) as double) as pay,

        cast(0 as double) as pay2

        from test1 a

        left semi join

       test2 b

      on (a.level2 = b.cat_id2

         and a.brand_id = b.brand_id

       and b.cat_id2 > 0

         and b.brand_id > 0

         and b.max_price = 0 )

Join on:

select     a.level2,  a.name2,

        cast((a.alipay_fee) as double) as pay,

        cast(0 as double) as pay 2

        from test1 a

   join   test2 b

     on (a.level2 = b.cat_id2

         and a.brand_id = b.brand_id)

  where  b.cat_id2 > 0

         and b.brand_id > 0

         and b.max_price = 0

　　陷阱：统计得到结果不一致，这是一个陷阱，因为子表中test2 b中存在重复的数据。当join on 时,a ,b表会关联到两条记录，在on上条件符合。

而当使用left semi join时，当A表中的记录，在B表上产生符合条件就返回，不会再继续查找B表的记录，所以即使有重复，也不会产生多条记录。

所以大多数情况下，两种方式是对等的，只有在有重复的记录时，要小心一点。

Map Side Join

　　MapJoin 即是 Map任务输出后，不需要将数据拷贝到Reducer节点，降低的数据在网络节点之间传输的开销。
多表连接，如果只有一个表比较大，其他表都很小，则JOIN操作会转换成一个只包含Map的Job，例如

SELECT /*+ MAPJOIN(b) */ a.key, a.value FROM a JOIN b ON a.key = b.key;

　　所以对于表a的每一个map，都能够完全读取表b的数据。这里，表a和b不允许FULL OUTER JOIN、RIGHT OUTER JOIN。

BUCKET Map Side JOIN

　　我们先看两个表a和b的DDL，表a为：

CREATE TABLE a(key INT, othera STRING)

CLUSTERED BY(key) INTO 4 BUCKETS

ROW FORMAT DELIMITED

FIELDS TERMINATED BY '\001'

COLLECTION ITEMS TERMINATED BY '\002'

MAP KEYS TERMINATED BY '\003'

STORED AS SEQUENCEFILE;

　　表b为：

CREATE TABLE b(key INT, otherb STRING)

CLUSTERED BY(key) INTO 32 BUCKETS

ROW FORMAT DELIMITED

FIELDS TERMINATED BY '\001'

COLLECTION ITEMS TERMINATED BY '\002'

MAP KEYS TERMINATED BY '\003'

STORED AS SEQUENCEFILE;

　　现在要基于a.key和b.key进行JOIN操作，此时JOIN列同时也是BUCKET列，JOIN语句如下

SELECT /*+ MAPJOIN(b) */ a.key, a.value FROM a JOIN b ON a.key = b.key

　　并且表a有4个BUCKET，表b有32个BUCKET，默认情况下，对于表a的每一个BUCKET，都会去获取表b中的每一个BUCKET来进行JOIN，这回造成一定的开销，因为只有表b中满足JOIN条件的BUCKET才会真正与表a的BUCKET进行连接。
　　这种默认行为可以进行优化，通过改变默认JOIN行为，只需要设置变量：

set hive.optimize.bucketmapjoin = true

　　这样，JOIN的过程是，表a的BUCKET 1只会与表b中的BUCKET 1进行JOIN，而不再考虑表b中的其他BUCKET 2~32。
　　如果上述表具有相同的BUCKET，如都是32个，而且还是排序的，亦即，在表定义中在CLUSTERED BY(key)后面增加如下约束：

SORTED BY(key)

　　则上述JOIN语句会执行一个Sort-Merge-Bucket (SMB) JOIN，同样需要设置如下参数来改变默认行为，优化JOIN时只遍历相关的BUCKET即可：

sethive.input.format=org.apache.hadoop.hive.ql.io.BucketizedHiveInputFormat;

set hive.optimize.bucketmapjoin = true

set hive.optimize.bucketmapjoin.sortedmerge = true;

例子：

SELECT

	t1.产品类型,

	COUNT(DISTINCT (IF(t2.用户ID IS NULL, NULL, t1.用户ID))) AS KEEP_UV

FROM

(

	SELECT

		产品类型,

		用户ID

	FROM 事实表

	WHERE (`DATE` >= 20140201 AND `DATE` <= 20140228)

) t1

LEFT OUTER JOIN

(

	SELECT

		产品类型,

		用户ID

	FROM 事实表

	WHERE (`DATE` >= 20140101 AND `DATE` <= 20140131)

) t2 ON (t1.产品类型 = t2.产品类型 AND t1.用户ID = t2.用户ID)

GROUP BY t1.产品类型

　本身表包含的字段信息多，时间跨度大。对于这种对于IN / EXISTS子查询（准确地说，这里是非相关子查询）有一种高效的实现，就是LEFT SEMI JOIN：

LEFT SEMI JOIN implements the uncorrelated IN/EXISTS subquery semantics in an efficient way.

left join

SELECT

	产品类型,

	COUNT(DISTINCT t1.用户ID) AS KEEP_UV

FROM

(

	SELECT

		产品类型,

		用户ID

	FROM 事实表

	WHERE (`DATE` >= 20140201 AND `DATE` <= 20140228)

) t1

LEFT SEMI JOIN

(

	SELECT

		产品类型,

		用户ID

	FROM 事实表

	WHERE (`DATE` >= 20140101 AND `DATE` <= 20140131)

) t2 ON (t1.产品类型 = t2.产品类型 AND t1.用户ID = t2.用户ID)

GROUP BY 产品类型

参考链接：这里，这里

配置参数也是hive优化的重要方面：参考这里，这里

hive：join操作的更多相关文章

Hive中JOIN操作
1. 只支持相等JOIN. 2. 多表连接当使用不同的列进行JOIN时,会产生多个MR作业. 3. 最后的表的数据是从流中读取,而前面的会在内存中缓存,因此最好把最大的表放在最后. SELECT /* ...
[Hive_add_5] Hive 的 join 操作
0. 说明在 Hive 中进行 join 操作 1. 操作步骤 1.0 建表在 hiveserver2 服务启动的前提下,在 Beeline客户端中输入以下命令 # 新建顾客表 create ta ...
hive中的子查询改join操作（转）
这些子查询在oracle和mysql等数据库中都能执行,但是在hive中却不支持,但是我们可以把这些查询语句改为join操作: -- 1.子查询 select * from A a where a.u ...
使用MapReduce实现join操作
在关系型数据库中,要实现join操作是非常方便的,通过sql定义的join原语就可以实现.在hdfs存储的海量数据中,要实现join操作,可以通过HiveQL很方便地实现.不过HiveQL也是转化成 ...
MapReduce 实现数据join操作
前段时间有一个业务需求,要在外网商品(TOPB2C)信息中加入联营自营识别的字段.但存在的一个问题是,商品信息和自营联营标示数据是两份数据:商品信息较大,是存放在hbase中.他们之前唯一的 ...
hive: join 遇到问题
在表连接时遇到一个问题: insert overwrite table BF_EVT_CRD_CRT_TRAD2 select BF_EVT_CRD_CRT_TRAD.*, jjkdjk.CUST_N ...
Hive JOIN使用详解
转自http://shiyanjun.cn/archives/588.html Hive是基于Hadoop平台的,它提供了类似SQL一样的查询语言HQL.有了Hive,如果使用过SQL语言,并且不理解 ...
转载:几种 hive join 类型简介
作为数据分析中经常进行的join 操作,传统DBMS 数据库已经将各种算法优化到了极致,而对于hadoop 使用的mapreduce 所进行的join 操作,去年开始也是有各种不同的算法论文出现,讨论 ...
hive join的三种优化方式
原网址:https://blog.csdn.net/liyaohhh/article/details/50697519 hive在实际的应用过程中,大部份分情况都会涉及到不同的表格的连接, 例如在进行 ...

随机推荐

细数Python Flask微信公众号开发中遇到的那些坑
最近两三个月的时间,断断续续边学边做完成了一个微信公众号页面的开发工作.这是一个快递系统,主要功能有用户管理.寄收件地址管理.用户下单,订单管理,订单查询及一些宣传页面等.本文主要细数下开发过程中遇到 ...
File类中的list和listFiles方法
File类中的list和listFiles方法 list()方法是返回某个目录下的所有文件和目录的文件名,返回的是String数组 listFiles()方法是返回某个目录下所有文件和目录的绝对路径, ...
高通HAL层之Sensor HAL
高通的HAL层其实分为两种,一种是直接从kernel这边报数据上来的,由sensor HAL层来监听,另一种是走ADSP的模式,HAL层是通过qmi的形式进行监听的: 走ADSP架构的可以看下面的博客 ...
BZOJ 2242: [SDOI2011]计算器 [快速幂 BSGS]
2242: [SDOI2011]计算器题意:求\(a^b \mod p,\ ax \equiv b \mod p,\ a^x \equiv b \mod p\),p是质数这种裸题我竟然WA了好多次 ...
51Nod 1225 余数之和 [整除分块]
1225 余数之和基准时间限制:1 秒空间限制:131072 KB 分值: 80 难度:5级算法题收藏关注 F(n) = (n % 1) + (n % 2) + (n % 3) + ... ...
Does Java pass by reference or pass by value?(Java是值传递还是引用传递) - 总结
这个话题一直是Java程序员的一个热议话题,争论不断,但是不论是你百度搜也好还是去看官方的文档中所标明的也好,得到的都只有一个结论:Java只有值传递. 在这里就不贴代码细致解释了,让我们来看看一些论 ...
Jquery里面种的 JSON.parse() 与JSON.stringify() 的区别
JSON.parse()与JSON.stringify()的区别 JSON.parse()[从一个字符串中解析出json对象] Demo: //定义一个字符串 var data='{"N ...
四、正则表达式re模块
什么是正则表达式正则表达式,又称规则表达式,通常被用来检索.替换那些符合某个模式(规则)的文本. 正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符.及这些特定字符的组合,组成一 ...
【Tools】ubuntu虚拟机Vmware Tools 安装记录
1.下载VmwareTools 链接: https://pan.baidu.com/s/1c4baji4 密码: h3si 2.终端打开下载文件位置 cd /home/ubuntu/Downloads ...
在阿里云上搭建 Spark 实验平台
在阿里云上搭建 Spark 实验平台 Hadoop2.7.3+Spark2.1.0 完全分布式环境搭建全过程 [传统文化热爱者] 阿里云服务器搭建spark特别坑的地方阿里云实现Hadoop+Sp ...