深入理解hadoop之数据倾斜

1、什么是数据倾斜

　　我们在用map /reduce程序执行时，有时候会发现reduce节点大部分执行完毕，但是有一个或者几个reduce节点运行很慢，导致整个程序的处理时间很长，这是因为某一个key的条数比其他key多很多（有时是百倍或者千倍之多），这条key所在的reduce节点所处理的数据量比其他节点就大很多，从而导致某几个节点迟迟运行不完。这种现象就是因为key分布不均匀、散度不够导致的，也就是我们所说的数据倾斜。

2、数据倾斜产生的原因

　　在hive上执行join,group by,count distinct等操作的时候可能会发现ruduce阶段卡在99.99%，一直99.99%不能结束，查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成；这里进一步查看进程日志或者WEBUI会发现：有一个多几个reduce卡住；各种container报错OOM，读写的数据量极大，至少远远超过其它正常的reduce ，伴随着数据倾斜，会出现任务被kill等各种诡异的表现。一般情况下Hive的数据倾斜，都发生在Sql中Group和On上，而且和数据逻辑绑定比较深。

3、数据倾斜解决的办法

　　1)hive.groupby.skewindata变量，这个变量是用于控制负载均衡的。当数据出现倾斜时，如果该变量设置为true，那么Hive会自动进行负载均衡。

　　2)mapjoin方式
3)count distinct的操作，先转成group，再count
4)hive.groupby.skewindata=true
5)left semi jioin的使用
6)设置map端输出、中间结果压缩

深入理解hadoop数据倾斜的更多相关文章

hadoop 数据倾斜
数据倾斜是指,map /reduce程序执行时,reduce节点大部分执行完毕,但是有一个或者几个reduce节点运行很慢,导致整个程序的处理时间很长,这是因为某一个key的条数比其他key多很多(有 ...
Hadoop数据倾斜及解决办法
数据倾斜:就是大量的相同key被partition分配到一个分区里,map /reduce程序执行时,reduce节点大部分执行完毕,但是有一个或者几个reduce节点运行很慢,导致整个程序的处理时间 ...
浅析 Hadoop 中的数据倾斜
转自:http://my.oschina.net/leejun2005/blog/100922 最近几次被问到关于数据倾斜的问题,这里找了些资料也结合一些自己的理解. 在并行计算中我们总希望分配的每一 ...
[大牛翻译系列]Hadoop（14）MapReduce 性能调优：减小数据倾斜的性能损失
6.4.4 减小数据倾斜的性能损失数据倾斜是数据中的常见情况.数据中不可避免地会出现离群值(outlier),并导致数据倾斜.这些离群值会显著地拖慢MapReduce的执行.常见的数据倾斜有以下几类 ...
Hadoop基础-MapReduce的数据倾斜解决方案
Hadoop基础-MapReduce的数据倾斜解决方案作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.数据倾斜简介 1>.什么是数据倾斜答:大量数据涌入到某一节点,导致 ...
hadoop job解决大数据量关联时数据倾斜的一种办法
转自:http://www.cnblogs.com/xuxm2007/archive/2011/09/01/2161929.html http://www.geminikwok.com/2011/04 ...
hadoop之数据倾斜
数据倾斜介绍在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显.主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Count ...
深入理解hadoop之排序
MapReduce的排序是默认按照Key排序的,也就是说输出的时候,key会按照大小或字典顺序来输出,比如一个简单的wordcount,出现的结果也会是左侧的字母按照字典顺序排列.下面我们主要聊聊面试 ...
3、Hive-sql优化，数据倾斜处理
一.Hive-sql优化 #增加reducer任务数量(拉取数量分流) ; #在同一个sql中的不同的job是否可以同时运行,默认为false set hive.exec.parallel=true; ...

随机推荐

ESXi 5.1 识别GPT问题
使用paredUtil命令 partedUtil mklabel /dev/disks/eui.227c000155707e0b msdospartedUtil mklabel /dev/disks/ ...
pytorch-Resnet网络
残差网络:将输入层与输出层进行连接,保证了经过这层网路结构,网络的运算能力不会出现较大的改变网络解析: 第一层网络: 输入网络经过一个卷积层,再经过一个batch_normalize, 再经过一个r ...
1.分布式配置中心 spring-cloud-config
pring Cloud 版本:2.1.0.RELEASE 一.server端 1.maven依赖 <dependency> <groupId>org.springframewo ...
vue-判断设备是手机端还是pc端
经常在项目中会有支持 pc 与手机端需求.并且pc与手机端是两个不一样的页面.这时就要求判断设置,根据不同的设置跳转不同的路由. [代码演示] 在 router/index.js 中有两个页面. ex ...
thinkphp5的控制器调用自身模块和调用其他模块的方法
以user为例,调用user.php的get_number()方法一.不管是调用自身模块还是其他模块app\model\User.php写法不变 <?php namespace app\ind ...
mybatis映射文件祥解(StudentMapper.xml)
1)以下是StudentMapper.xml文件,提倡放在与实体同目录下,文件名任意 <?xml version="1.0" encoding="UTF-8&quo ...
.netcore多语言解决方案
这里本文使用Microsoft.AspNetCore.Localization来实现多语言的解决方案默认是包含这个包的,所有不需要再额外安装首先需要注入我们需要的服务 1.在startup.cs中 ...
VBA锁定指定单元格
Then .Range("AF4").Value = pjno .Range("A1:AH56").Locked = False .Range("F6 ...
centos6 安装docker
docker 安装要求内核大于3.10 , 而centos6 机器上内核一般是2.6 , 除了升级内核外, 还可以安装低版本的docker , 本文介绍docker 1.7的安装. 机器环境 [ro ...
Oracle面试题
0.绑定变量的优缺点及使用场合分别是什么? 优点:能够避免SQL的硬解析以及与之相关的额外开销(SQL语法.语义的分析.逻辑分析.生成较佳的执行计划等开销),提高执行效率. 缺点:如果在表存在数据倾斜 ...