Hive性能调优（二）----数据倾斜

　　Hive在分布式运行的时候最害怕的是数据倾斜，这是由于分布式系统的特性决定的，因为分布式系统之所以很快是由于作业平均分配给了不同的节点，不同节点同心协力，从而达到更快处理完作业的目的。

　　Hive中数据倾斜的原因：

数据在分布式节点上分部不均衡
join时某些key可能特别大（常见null值）
group by 时某个值可能特别多
count(distinct key...)时有可能会出现数据倾斜，因为其内部处理会进行group by 操作

join

join时key最好是分散的，如果一个key的数据量特别大，有可能会出现数据倾斜和OOM。一个核心就是小表join大表，可以在reduce阶段，左侧的小表全部加载到内存，降低OOM的风险
大表join大表
数据倾斜，例如null值。解决办法一般是打散null值，例如使用随机数等。

mapjoin

小表join（超）大表的时候，可以采用mapjoin 的方式把小表全部加载到mapper端的内存中。

不会自动进行mapjoin，需要设置：

set hive.auto.convert.join=true；    　　//hive在进行join的时候会判断左表的大小来决定是否进行mapJoin

set hive.mapjoin.smalltable.filesize=128000000  //hive在进行join的时候会判断左表的大小来决定是否进行mapJoin的大小阈值 字节数

set hive.mapjoin.cache.numrows=1000000      //hive在进行join的时候会判断左表的大小来决定是否进行mapJoin的大小阈值--数据行数

上述参数可以根据实际的硬件机器的内存进行调整，对性能有至关重要的影响，因为没有了shuffle，对于mapjoin我们能够使用mapper端JVM中多大的内存？

set hive.mapjoin.followby.gby.localtask.max.memory.usage=0.55 //百分比

set hive.mapjoin.localtask.max.memory.usage=0.9  //百分比

group by
可以设置在Mapper端进行部门聚合，最后在reduce端进行全局聚合
```
set hive.map.aggr=true;             //默认开启，

set hive.groupby.mapaggr.checkinterval=1000000;  //在Map端进行聚合操作的条目数

//防止数据倾斜

set hive.groupby.skewindata=true;  //会产生Mapper-Reducer-Reducer的结构
```
生成查询计划时，实际上会生成两个job，第一个job会通过自己的算法打散倾斜的key并进行聚合操作并保留结果，第二个job会完成全部的Group by 操作，相当于Mapper-Reduce-Reduce的结构。（第一个会把Mapper的输出随记分布到Reduce中，每个Reduce做部分聚合并且保存结果，这样导致相同的groupby key分配到不同的Reduce上，一定程度上避免数据倾斜，接下来另外一个Job根据前一个Job预处理数据的结果再进行Group By到Reduce中）
count(distinct ) 如果某个值特别多，容易产生数据倾斜。
解决思路：
在查询语句中，例如对null值进行过滤，在结果上加1。 count(uid) （uid中去掉了值为null）的记录，所以在最后的结果 cnt 的基础上加1, 即cnt+1

Hive性能调优（二）----数据倾斜的更多相关文章

Spark学习之路（九）SparkCore的调优之数据倾斜调优
摘抄自:https://tech.meituan.com/spark-tuning-pro.html 数据倾斜调优调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Sp ...
Spark学习之路（九）SparkCore的调优之数据倾斜调优[转]
调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题--数据倾斜,此时Spark作业的性能会比期望差很多.数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的 ...
Spark 调优之数据倾斜
什么是数据倾斜? Spark 的计算抽象如下数据倾斜指的是:并行处理的数据集中,某一部分(如 Spark 或 Kafka 的一个 Partition)的数据显著多于其它部分,从而使得该部分的处理速度 ...
【Hive】Hive笔记：Hive调优总结——数据倾斜，join表连接优化
数据倾斜即为数据在节点上分布不均,是常见的优化过程中常见的需要解决的问题.常见的Hive调优的方法:列剪裁.Map Join操作. Group By操作.合并小文件. 一.表现 1.任务进度长度为99 ...
Hive（十）Hive性能调优总结
一.Fetch抓取 1.理论分析 Fetch抓取是指,Hive中对某些情况的查询可以不必使用MapReduce计算.例如:SELECT * FROM employees;在这种情况下,Hive可以简单 ...
【Spark调优】数据倾斜及排查
[数据倾斜及调优概述] 大数据分布式计算中一个常见的棘手问题——数据倾斜: 在进行shuffle的时候,必须将各个节点上相同的key拉取到某个节点上的一个task来进行处理,比如按照key进行聚合或j ...
HDP Hive性能调优
(官方文档翻译整理及总结) 一.优化数据仓库 ① Hive LLAP 是一项接近实时结果查询的技术,可用于BI工具以及网络看板的应用,能够将数据仓库的查询时间缩短到15秒之内,这样的查询称之为Int ...
spark性能调优06-数据倾斜处理
1.数据倾斜 1.1 数据倾斜的现象现象一:大部分的task都能快速执行完,剩下几个task执行非常慢现象二:大部分的task都能快速执行完,但总是执行到某个task时就会报OOM,JVM out ...
spark调优篇-数据倾斜(汇总)
数据倾斜为什么会数据倾斜 spark 中的数据倾斜并不是说原始数据存在倾斜,原始数据都是一个一个的 block,大小都一样,不存在数据倾斜: 而是指 shuffle 过程中产生的数据倾斜,由于不同的 ...

随机推荐

C#中 EF 性能优化
https://www.cnblogs.com/chenwolong/p/7531955.html EF使用AsNoTracking(),无跟踪查询技术(查询出来的数据不可以修改,如果你做了修改,你会 ...
中间人攻击，HTTPS也可以被碾压
摘要: 当年12306竟然要自己安装证书... 原文:知道所有道理,真的可以为所欲为公众号:可乐 Fundebug经授权转载,版权归原作者所有. 一.什么是MITM 中间人攻击(man-in-the ...
oracle表空间设置自动扩展
开启自动扩展功能语法: alter database datafile '对应的数据文件路径信息' autoextend on; 关闭自动扩展功能语法: alter database datafile ...
安装HomeBrew 失败的解决方案(Error: Fetching /usr/local/Homebrew/Library/Taps/homebrew/homebrew-core failed!)
在安装HomeBrew(或者安装成功执行相关指令)时遇到错误提示: Error: Failure while executing: git clone https://github.com/Home ...
jt格式文件与3D数据压缩
介绍 JT是西门子公司推出的PLM通用三维格式,设计为一个开放.高效率的.紧凑,持久性存储的产品数据格式,用于产品可视化.协作和CAD数据共享.JT文件格式包括多方面的数据,以及对曲面边的精准表示,产 ...
element-ui 中dialog居中
.el-dialog{ display: flex; flex-direction: column; margin:0 !important; ...
记MacOs视频mov与mp4格式转换问题解决
综述记录了mov转mp4格式的方法记录了自己是多蠢问题背景这学期选修的<工程英语视听说>课,需要提交一段口语考试视频,于是乎: 带着我的大疆Mavic Mini 和iPad Pro ...
数位DP入门详解+题目推荐
\(update:2019-9-6\) 博客里某些东西没有解释清楚,完善了对应的解释在开始之前,我们先来看一道题--题目链接题目要求,相邻两位的差大于等于2,那么我们先来构造一个试一试. 比如说\ ...
通过ES6 Module看import和require区别
前言说到import和require,大家平时开发中一定不少见,尤其是需要前端工程化的项目现在都已经离不开node了,在node环境下这两者都是大量存在的,大体上来说他们都是为了实现JS代码的模块化 ...
JavaScript：ES6的新特性
1.关键字 const:修饰常量.ES6之前只有变量的声明字段var,ES6开始引入常量关键字,被修饰的变量无法被修改. <script type="text/javascript&q ...

Hive性能调优（二）----数据倾斜

Hive性能调优（二）----数据倾斜的更多相关文章

随机推荐

热门专题