【Spark调优】聚合操作数据倾斜解决方案

wwcom123 2024-09-20 12:22:40 原文

【使用场景】

　　对RDD执行reduceByKey等聚合类shuffle算子或者在Spark SQL中使用group by语句进行分组聚合时，经过sample或日志、界面定位，发生了数据倾斜。

【解决方案】

　　局部聚合+全局聚合，进行两阶段聚合。具体为：

　　将原本相同的key通过附加随机前缀的方式，变成多个不同的key，就可以让原本被一个task处理的数据分散到多个task上去做局部聚合，进而解决单个task处理数据量过多的问题。接着去除掉随机前缀，再次进行全局聚合，就可以得到最终的结果。

　　第一步：给key倾斜的dataSkewRDD中每个key都打上一个随机前缀。

　　例如10以内的随机数，此时原先一样的key，包括集中倾斜的key就变成不一样的了，比如(hello, 1) (hello, 1) (hello, 1) (hello, 1)，就会变成(5_hello, 1) (3_hello, 1) (3_hello, 1) (5_hello, 1) (8_hello, 1) (5_hello, 1) ...

　　第二步：对打上随机前缀的key不再倾斜的randomPrefixRdd进行局部聚合。

　　接着对打上随机数后的数据，执行reduceByKey等聚合操作，进行局部聚合时，就不会数据倾斜了。此时，第一步局部聚合的结果，变成了(5_hello, 3) (3_hello, 2) (8_hello, 1)

　　第三步：局部聚合后，去除localAggRdd中每个key的随机前缀。

　　此时，第二步局部聚合的结果，变成了(hello, 3) (hello, 2) (hello, 1)

　　第四步：对去除了随机前缀的removeRandomPrefixRdd进行全局聚合。

　　得到最终结果(hello, 6)

【方案优点】

　　对于聚合类的shuffle操作导致的数据倾斜，效果不错，通常都可以解决数据倾斜问题，至少大幅缓解数据倾斜，将Spark作业的性能提升数倍以上。

【代码实现】

　　代码实现：https://github.com/wwcom614/Spark

　　Java版实现

　　Scala版实现

【Spark调优】聚合操作数据倾斜解决方案的更多相关文章

【Spark调优】数据倾斜及排查
[数据倾斜及调优概述] 大数据分布式计算中一个常见的棘手问题——数据倾斜: 在进行shuffle的时候,必须将各个节点上相同的key拉取到某个节点上的一个task来进行处理,比如按照key进行聚合或j ...
spark调优篇-数据倾斜(汇总)
数据倾斜为什么会数据倾斜 spark 中的数据倾斜并不是说原始数据存在倾斜,原始数据都是一个一个的 block,大小都一样,不存在数据倾斜: 而是指 shuffle 过程中产生的数据倾斜,由于不同的 ...
Spark 调优之数据倾斜
什么是数据倾斜? Spark 的计算抽象如下数据倾斜指的是:并行处理的数据集中,某一部分(如 Spark 或 Kafka 的一个 Partition)的数据显著多于其它部分,从而使得该部分的处理速度 ...
【Spark调优】小表join大表数据倾斜解决方案
[使用场景] 对RDD使用join类操作,或者是在Spark SQL中使用join语句时,而且join操作中的一个RDD或表的数据量比较小(例如几百MB或者1~2GB),比较适用此方案. [解决方案] ...
【Spark调优】Broadcast广播变量
[业务场景] 在Spark的统计开发过程中,肯定会遇到类似小维表join大业务表的场景,或者需要在算子函数中使用外部变量的场景(尤其是大变量,比如100M以上的大集合),那么此时应该使用Spark的广 ...
【Spark调优】大表join大表，少数key导致数据倾斜解决方案
[使用场景] 两个RDD进行join的时候,如果数据量都比较大,那么此时可以sample看下两个RDD中的key分布情况.如果出现数据倾斜,是因为其中某一个RDD中的少数几个key的数据量过大,而另一 ...
Spark调优指南
Spark相关问题 Spark比MR快的原因? 1) Spark的计算结果可以放入内存,支持基于内存的迭代,MR不支持. 2) Spark有DAG有向无环图,可以实现pipeline的计算模式. 3) ...
spark 调优概述
分为几个部分: 开发调优.资源调优.数据倾斜调优.shuffle调优开发调优: 主要包括这几个方面 RDD lineage设计.算子的合理使用.特殊操作的优化等避免创建重复的RDD,尽可能复用同一 ...
Spark调优秘诀——超详细
版权声明:本文为博主原创文章,转载请注明出处. Spark调优秘诀 1.诊断内存的消耗在Spark应用程序中,内存都消耗在哪了? 1.每个Java对象都有一个包含该对象元数据的对象头,其大小是16个 ...

随机推荐

todolist---插入和删除----vue
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
为什么禁止在 foreach 循环里进行元素的 remove/add 操作
首先看下边一个例子,展示了正确的做法和错误的错发: 这是为什么呢,具体原因下面进行详细说明: 1.foreach循环(Foreach loop)是计算机编程语言中的一种控制流程语句,通常用来循环遍历数 ...
Ubuntu16.04 安装Tensorflow1.7过程记录二：安装CUDA及Tensorflow
参考 How to install Tensorflow 1.7.0 using official pip package 其中的CUDNN应该改为7.05for CUDA9.0 后面安装的spyde ...
Java多线程编程核心技术（一）
先提一下进程,可以理解为操作系统管理的基本单元. 而线程呢,在进程中独立运行的子任务.举个栗子:QQ.exe运行时有很多子任务在同时运行,比如好友视频线程.下载视频线程.传输数据线程等等. 多线程的优 ...
Dom事件流、冒泡、捕获
Dom事件流 dom的结构是一个倒立的树状结构.当一个html元素触发事件时,事件会在dom的根节点和触发事件的元素节点之间传播,中间的节点都会收到该事件. 捕获:div元素触发事件时,事件先从根节点 ...
Codeforces 863 简要题解
文章目录 A题 B题 C题 D题 E题 F题 G题传送门简要题解?因为最后一题太毒不想写了所以其实是部分题解... A题传送门题意简述:给你一个数,问你能不能通过加前导000使其成为一个回文数 ...
Effective Java -- 使可变性最小化
为了使类成为不可变的,应该遵循以下五条原则: 1. 不要提供任何会下盖对象状态的方法 2. 保证类不会被扩展 3. 使所有的域都是final的 4. 使所有的域都成为私有的 5. 确保对于任何可变组件 ...
[转]dd命令、cp命令详解+dd命令、cp命令对比 ---delong
出处:http://blog.csdn.net/sun_app/article/details/18263299 1.dd命令详解 1)中文man手册dd的解释 NAME dd - 转换和 ...
模板基础model
一.Django-model基础 1.1ORM 映射关系: 表名<---------->类名字段<---------->属性表记录<---------->类实例 ...
注入Shellcode并运行攻击
注入Shellcode并运行攻击一.实验步骤 1.安装execstack并修改设置安装execstack apt-get install execstack 设置堆栈可执行 execstack - ...