spark数据倾斜

数据倾斜的主要问题在于，某个分区数量很巨大，在做map运算的时候，将会发生别的分区task很快计算完成，但是某几个分区task的计算成为了系统的瓶颈，明显超过其他分区时间；

1.方案：Kafka的随机主题

如果kafka的topic和分区关联，而且kafka是专用的，那么其实kafka如果能够和随机主机，那么数据将会随机打入到各个分区中，这样可以解决数据热点问题；

2. 方案：将不可切割的文件转换为可切割文件

对于gzip这类文件最好转化为可切割文件；因为对于不可切割的压缩文件，将会作为一个单独分区来处理，比如8.5G压缩到了23.5M，但是因为数据量巨大，这个gzip文件所在的分区将会成为性能瓶颈。

3. 方案：调整并行度

大量的key分配到同一个分区/Task里面；spark在数据分区的时候，默认使用的HashPartition；通过增加/减少并行度，来对于热点key进行重新分区；

另外一种方式类似：自定义分区函数，将HashPartition中集中分配的key，通过自定义的方式进行分散处理；

4. 方案：Reduce侧的Join通过BroadCast转换为Map侧的Join

select... from t1 join t2 on t1.aa=t2.bb

这个sql语句spark正常的执行方式是t1表中map，t2表中数据map（t2表数据量表较小），然后reduce到一起进行关联操作；因为t1表返回的粒度和t2表返回数据粒度不一样，所以导致reduce侧分区可能出现倾斜；

对于这场场景处理，通常都是将t2表中的数据通过broadcast的方式广播到各个分区中；这样各个分区在map阶段就可以进行数据关联，避免了shuffle到reduce阶段再进行关联。

5. 方案：拆分热点key

如果倾斜发生在一张表A中（另外一张表数据B比较均匀），而且数据热点集中在少数几个key；

1. 把大表中这几个key单独拎出来：skewRDD，在拎出来的时候，对于key添加随机数，保证对这些（添加了前缀的）key进行合理分区；然后skewRDD和B表进行join；skewJoinedRDD；

2. 过滤A表中那几个key，形成unskewRDD，和B表做join，形成unskewJoinedRDD；

3. skewJoinedRDD和unskewJoinedRDD做union（联合）；

6. 方案：大表key全部进行添加随机数，小表扩大N倍

如果热点key太多了，那么就需要：

1. 把大表A所有的key都添加随机值，这样，对于大表数据进行数据重新分区，比如48取随机数，填充到key的前面，通过“，”分割；

2. 对于小表B里面所有的数据都扩充N倍，比如数据1，现在有48条数据1，48条记录value都是一样的，但是key为“1,key”,“2，key“... "48, key"

3. 然后A，B做join，这样小表B中必然有一条会和A表关联上（其余47条记录成为冗余记录）

4. A，Bjoin结果做mapToPair，去掉之前前缀，结果集OK；

看了这么多的方案，你会发现其实本质就是发现了数据倾斜，考虑怎么将热点数据进行分散（重新分区）；这里可以考虑kafka的随机分区；调整并行度；把倾斜的key对应数据单独拎出来进行分区，最后和不包含这些key的key做union；全体key添加随机数，导致全体数据重新分区，再对具有N倍冗余数据的小表进行join获取数据；

比较特殊两个方案一个是对于不可分割的数据的处理，尽量转化为可分割数据（比如压缩文件搞成非压缩文件）；另外一个是将join的表（小表）通过broadcast将数据进行广播，reduce阶段的join转化为map阶段的join。

参考（我觉得作者有些神人之感）

http://www.jasongj.com/spark/skew/

spark数据倾斜的更多相关文章

Spark性能优化之道——解决Spark数据倾斜（Data Skew）的N种姿势
原创文章,同步首发自作者个人博客转载请务必在文章开头处注明出处. 摘要本文结合实例详细阐明了Spark数据倾斜的几种场景以及对应的解决方案,包括避免数据源倾斜,调整并行度,使用自定义Partitio ...
Spark 数据倾斜
Spark 数据倾斜解决方案 2017年03月29日 17:09:58 阅读数:382 现象当你的应用程序发生以下情况时你该考虑下数据倾斜的问题了: 绝大多数task都可以愉快的执行,总 ...
spark 数据倾斜的一些表现
spark 数据倾斜的一些表现 https://yq.aliyun.com/articles/62541
Spark数据倾斜解决方案（转）
本文转发自技术世界,原文链接 http://www.jasongj.com/spark/skew/ Spark性能优化之道——解决Spark数据倾斜(Data Skew)的N种姿势发表于 2017 ...
spark数据倾斜处理
spark数据倾斜处理危害: 当出现数据倾斜时,小量任务耗时远高于其它任务,从而使得整体耗时过大,未能充分发挥分布式系统的并行计算优势. 当发生数据倾斜时,部分任务处理的数据量过大,可能造成内存不足 ...
最详细10招Spark数据倾斜调优
最详细10招Spark数据倾斜调优数据量大并不可怕,可怕的是数据倾斜 . 数据倾斜发生的现象绝大多数 task 执行得都非常快,但个别 task 执行极慢. 数据倾斜发生的原理在进行 shuff ...
Spark数据倾斜及解决方案
一.场景 1.绝大多数task执行得都非常快,但个别task执行极慢.比如,总共有100个task,97个task都在1s之内执行完了,但是剩余的task却要一两分钟.这种情况很常见. 2.原本能够正 ...
Spark 数据倾斜调优
一.what is a shuffle? 1.1 shuffle简介一个stage执行完后,下一个stage开始执行的每个task会从上一个stage执行的task所在的节点,通过网络传输获取tas ...
Spark数据倾斜解决方案及shuffle原理
数据倾斜调优与shuffle调优数据倾斜发生时的现象 1)个别task的执行速度明显慢于绝大多数task(常见情况) 2)spark作业突然报OOM异常(少见情况) 数据倾斜发生的原理在进行shu ...

随机推荐

OAF 获取页面路径
--模糊查询某个页面 SELECT * FROM JDR_PATHS jp WHERE JP.PATH_NAME LIKE '%XXXX%'; --精确的查找过程 -- DocID --参数通过关于此 ...
Ajax中Delete请求参数后台无法获取的解决方法（Restful风格）
方法一: 在ajax中写入data来传参时,直接把参数拼接到url后面例如: $.ajax({ url: '/cyberspace/vrv/event/delete/1002?startTime=& ...
POJ 3481 SBT做法
第三次做此题.. 不解释啦. 不过变成用SBT来做啦! SBT好处在于能够保证树的高度为lgn,真真正正的平衡二叉树. 因此删除,插入操作与普通二叉树几乎相同. #include <cstdio ...
learning docker steps(4) ----- docker swarm 初次体验
参考:https://docs.docker.com/get-started/part4/ 了解 swarm 集群 swarm 是一组运行 Docker 并且已加入集群中的机器.执行此操作后,您可以继 ...
4.18n阶勒让德多项式求解
Q:编写程序,输入正整数n和任意数x,求出勒让德多项式的值Pn(x) #include <iostream> #include<cstdio> using namespace ...
参数 out
function outtest(out jo: ISuperObject; out s: string):Boolean; begin //进入函数时 jo =nil ErrStr = '' Res ...
使用MyEclipse开发Java EE应用：EJB项目开发初探（上）
你开学,我放价!MyEclipse线上狂欢继续!火热开启中>> [MyEclipse最新版下载] 一.MyEclipse EJB开发工具 Enterprise Java Beans (EJ ...
Win10玩游戏时听歌音量忽大忽小
问题原因是你的声卡被识别成了5.1声道,解决方法: 1.右键桌面右下角小喇叭选择“声音” 2.右键当前的播放设备选择“配置扬声器” 3.选择“立体声”,可以测试一下,然后点击下一步退出,可能会中断当前 ...
2018-2019-2 《网络对抗技术》Exp0 Kali安装 Week1 20165202
2018-2019-2 <网络对抗技术>Exp0 Kali安装 Week1 20165202 一.下载虚拟机环境 Kali所需要虚拟机软件为VMware,在之前其他课程中使用的即为VMw ...
Alpha版本展示
一.团队成员的简介和个人博客地址,团队的源码仓库地址. 1.团队的源码仓库地址我们主要通过码云来管理代码,码云地址:https://gitee.com/ljl36/team_programming ...

spark数据倾斜

spark数据倾斜的更多相关文章

随机推荐

热门专题