Hive Tuning（一）连接策略

群里共享了一本hive调优的书记，名叫《Hive Tunning》，就忍不住开始看了，也顺便记录一下自己学到的东西，备忘！

首先，这是hive的数据摘要，别问我什么意思，我也没看懂。

好，我们正式开始，首先是连接的问题，我们都知道连接耗时长，但是连接无法避免，那hive又是怎么处理连接操作的呢？

下面是hive的连接策略

hive有三种类型的连接策略

（1）Shuffle Join ：这种类型的是通过map/reduce 来实现连接操作的，优点是不需要考虑数据的大小和分布，缺点是消耗大量的资源而且是最慢的。

（2）Broadcast Join：这种类型的方式是把一个小的表在所有节点中加载到内容当中，然后用mapper来扫描大表进行连接，速度非常快，但是其中一个表必须可以加载到内存当中。

（3）Sort-Merge-Bucket Join：mapper可以协同定位keys去进行高效的连接，速度很快，不需要考虑表的大小，但是数据必须先排序和整理。

Shuffle Join:

我们以这个销售订单这个例子来做演示，可以看到其中的图，它们是通过customer.id=order.cid来做连接的，首先Map把两个表中的数据处理成以连接字段为key，其他字段为value的作为输出，然后把两个表中id和cid相同的数据传递到同一个reducer中，从网络使用率上看是很奢侈的。

Broadcast Join：

这种方式比较复杂一点，首先它使用足够小的维度表来存放在所有的节点当中，单独扫描大表，然后根据模式匹配进行连接。

当两个表都很大的情况下：

第一步，首先按照连接字段排序，所有可能的匹配的都在硬盘的同一块区域。

第二步，把所有的值都移到同一个节点下面进行等值连接，不需要再进行shuffle。

Bucketing:
– Hash partition values into a configurable number of buckets.
– Usually coupled with sorting.
• Skews:
– Split values out into separate files.
– Used when certain values are frequently seen.
• Replication Factor:
– Increase replication factor to accelerate reads.
– Controlled at the HDFS layer.
• Sorting:
– Sort the values within given columns.
– Greatly accelerates query when used with ORCFilefilter pushdown.

这里就不解释了，自己看吧，这和下面的图是对应的，针对不同大小的表，hive有多种处理模式。

（1）小表，经常要用的数据，建议使用replication factor，可能是缓存的意思，具体是什么意思，等我清楚了再给大家解释。

（2）任意大小的表，有很多要精确查询的列，建议先按照最常使用的列进行排序再进行查询。

（3）大表但是又需要和另外的的大表做连接，建议先通过连接列做排序和bucket。

（4）大表，但只是利用到其中某些常用的值，可以把常用的值弄个单独的skew中。

（5）大表但是有一些自然边界，比如日期的，建议利用日期进行分区。

Map Join开启

我们可以启用连接自动转换来帮助我们转换，在执行语句之前设置一下即可。它是经过优化的Map Join，无reducer。
set hive.auto.convert.join=true;

set hive.auto.convert.join.noconditionaltask = true;

set hive.auto.convert.join.noconditionaltask.size = 10000;

Skew Join

真实数据中数据倾斜是一定的, hadoop 中默认是使用

hive.exec.reducers.bytes.per.reducer = 1000000000

也就是每个节点的reduce 默认是处理1G大小的数据，如果你的join 操作也产生了数据倾斜，那么你可以在hive 中设定

set hive.optimize.skewjoin = true;

set hive.skewjoin.key = skew_key_threshold （default = 100000）

hive 在运行的时候没有办法判断哪个key 会产生多大的倾斜，所以使用这个参数控制倾斜的阈值，如果超过这个值，新的值会发送给那些还没有达到的reduce, 一般可以设置成你

（处理的总记录数/reduce个数）的2-4倍都可以接受.

倾斜是经常会存在的，一般select 的层数超过2层，翻译成执行计划多于3个以上的mapreduce job 都很容易产生倾斜，建议每次运行比较复杂的sql 之前都可以设一下这个参数. 如果你不知道设置多少，可以就按官方默认的1个reduce 只处理1G 的算法，那么 skew_key_threshold = 1G/平均行长. 或者默认直接设成250000000 (差不多算平均行长4个字节)

Sort-Merge-Bucket Join

如果表已经排序并且已经bucketed，可以启用SMB joins

set hive.auto.convert.sortmerge.join=true;

set hive.optimize.bucketmapjoin = true;

set hive.optimize.bucketmapjoin.sortedmerge = true;

set hive.auto.convert.sortmerge.join.noconditionaltask=true;

set hive.auto.convert.sortmerge.join.bigtable.selection.policy = org.apache.hadoop.hive.ql.optimizer.TableSizeBasedBigTableSelectorForAutoSMJ;

Hive Tuning（一）连接策略的更多相关文章

[大牛翻译系列]Hadoop（4）MapReduce 连接：选择最佳连接策略
4.1.4 为你的数据选择最佳连接策略已介绍的每个连接策略都有不同的优点和缺点.那么,怎么来判断哪个最适合待处理的数据? 图4.11给出了一个决策树.这个决策树是于论文<A Compariso ...
windows server 2008 R2 NPS（网络连接策略服务）设置radius，实现telent登陆交换机路由器权限分配
windows2008NPS(网络连接策略)设置radius 实现telent登陆交换机路由器权限分配转载请说明出处一,安装首先在08中添加服务器角色网络策略和访问服务(Network Poli ...
Hive concat函数连接后结果为null
Hive concat函数连接后结果为null concat函数是用来连接字符串的使用示例: select concat('Hello','World','Java'); 运行结果: 最近我们在做需 ...
Hive(三):SQuirrel连接hive配置
熟悉了Sqlserver的sqlserver management studio.Oracle的PL/SQL可视化数据库查询分析工具,在刚开始使用hive.phoenix等类sql组件时,一直在苦苦搜 ...
Hive Tuning(四) 从查询计划看hive.auto.convert.join的好处
今天我们来讲一下如何看懂Hive的查询计划. hive的执行计划包括三部分 – Abstract syntax tree – 可以直接忽略 – Stage dependencies – 依赖 – S ...
使用Hive Rest API 连接HDInsight
以下连接是微软最新的关于HDInsight中Hive命令的RestAPI示例地址.. 使用 HDInsight .NET SDK 运行 Hive 查询请使用接口有异常的同学检查是否使用的是下面地址中 ...
Hive的JDBC连接
首相要安装好hive 1.首先修改配置文件文件为hive 路径下的 conf/hive-sit.xml 将内容增加 <property> <name>hive.server2 ...
hive作业的优化策略
Mapreduce自身的特点: 1.IO和网络负载大:优化策略:减少IO和网络负载. 2.内存负载不大.优化策略:增大内存使用率: 3.CPU负载不大.优化策略:增大CPU使用率: (hive的优化应 ...
Hive和Spark分区策略
1.概述离线数据处理生态系统包含许多关键任务,最大限度的提高数据管道基础设施的稳定性和效率是至关重要的.这边博客将分享Hive和Spark分区的各种策略,以最大限度的提高数据工程生态系统的稳定性和效 ...

随机推荐

【LeetCode】146. LRU Cache
LRU Cache Design and implement a data structure for Least Recently Used (LRU) cache. It should suppo ...
【LeetCode】53. Maximum Subarray (2 solutions)
Maximum Subarray Find the contiguous subarray within an array (containing at least one number) which ...
【LeetCode】27. Remove Element (2 solutions)
Remove Element Given an array and a value, remove all instances of that value in place and return th ...
vue学习01
vue学习01 1. 创建一个Vue实例官网-学习-教程-安装-(开发/生产版本)-与jQuery的引用相似 <!DOCTYPE html> <html> <head ...
Python 字典 copy()方法
描述 Python 字典 copy() 方法返回一个字典的浅拷贝(父不变,子变). 语法 copy() 方法语法: D.copy() 参数无. 返回值返回一个字典的浅拷贝(父不变,子变). 实例 ...
Python rindex() 方法
描述 Python rindex() 方法返回子字符串最后一次出现在字符串中的索引位置,该方法与rfind() 方法一样,只不过如果子字符串不在字符串中会报一个异常. 语法 rindex() 方法语法 ...
MPU6050读取FIFI数据时mpu_dmp_get_data的返回值一直是1
试验中发现:不断进行循环读fiffo就可以得到正常数据.形如这样 );//返回值:0,DMP成功解出欧拉角 printf("pitch=%f\troll=%f\tyaw=%f\r\n&quo ...
机器学习(4): KNN 算法
1. 综述 1.1 Cover和Hart在1968年提出了最初的邻近算法 1.2 分类(classification)算法 1.3 输入基于实例的学习(instance- ...
转：ASP.NET MVC 将IList<T>导出Excel文档的泛型类
/// <summary> /// 提供将泛型集合数据导出Excel文档. /// </summary> /// <typeparam name="T" ...
winfrom 窗口起始位置为屏幕中央
窗口起始位置为屏幕中央 this.StartPosition = System.Windows.Forms.FormStartPosition.CenterScreen; 获取鼠标触发事件光标位置 t ...

Hive Tuning（一） 连接策略

Hive Tuning（一） 连接策略的更多相关文章

随机推荐

热门专题

Hive Tuning（一）连接策略

Hive Tuning（一）连接策略的更多相关文章