SparkShuffle机制

在早期版本的Spark中，shuffle过程没有磁盘读写操作，是纯内存操作，后来发现效率较低，且极易引发OOME，较新版本的Shuffle操作都加入了磁盘读写进行了改进。

1、未经优化的HashShuffleManager：上一个stage中每一个task会对下一个stage的每一个task写一份数据文件，假定上一个stage有N个task，下一个stage有M个task，此时由上到下形成N个1对M的映射关系，总共产生【N M】个文件。这种方式的优点是思路简单，数据文件的逻辑隔离性更强。缺点是在磁盘上产生的文件个数太多，每个文件的读写都需要建立管道等操作，过多的文件势必增加额外的开销，效率较低。【同将多个小文件打包为一个大文件再拷贝，比直接拷贝多个小文件更快，一个道理】

2、优化过的HashShuffleManager：上一个stage中每一个task共同写下一个stage的每一个task独有的数据文件，假定上一个stage有N个task，下一个stage有M个task，此时由上到下形成M个N对1的映射关系，总共产生M个文件（文件数量只取决于下一个stage的task数量）。由于文件数量的减少，性能得到了一定的提升。
**
3、SortShuffleManager：这是当前版本中使用的方式，进一步减少数据文件个数，阶段之间只通过2个文件来传递数据【索引文件、数据文件】。在上一个阶段中，每个task都将数据在内存中进行排序生成文件（如果内存不够用就溢写到磁盘），将多个排序后的文件合并到同一个数据文件中，配合索引文件，下游task就能高效的完成读取操作。
由于排序操作是一个相对低效的操作，所以在小数据量时可以使用Hash算法来达到快速定位的目的。此时就轮到bypass机制，其内容是当shuffle-map-task数量小于bypassMergeThreshold（默认200个）时或者不是聚合类shuffle，就不采用排序而换为Hash操作。

SparkShuffle机制的更多相关文章

【Spark篇】---Spark中Shuffle机制，SparkShuffle和SortShuffle
一.前述 Spark中Shuffle的机制可以分为HashShuffle,SortShuffle. SparkShuffle概念 reduceByKey会将上一个RDD中的每一个key对应的所有val ...
【Spark篇】---Spark调优之代码调优，数据本地化调优，内存调优，SparkShuffle调优，Executor的堆外内存调优
一.前述 Spark中调优大致分为以下几种 ,代码调优,数据本地化,内存调优,SparkShuffle调优,调节Executor的堆外内存. 二.具体 1.代码调优 1.避免创建重复的RDD,尽 ...
【Spark-core学习之八】 SparkShuffle & Spark内存管理
[Spark-core学习之八] SparkShuffle & Spark内存管理环境虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 ...
笔记：Binder通信机制
TODO: 待修正 Binder简介 Binder是android系统中实现的一种高效的IPC机制,平常接触到的各种XxxManager,以及绑定Service时都在使用它进行跨进程操作. 它的实现基 ...
JAVA回调机制(CallBack)详解
序言最近学习java,接触到了回调机制(CallBack).初识时感觉比较混乱,而且在网上搜索到的相关的讲解,要么一言带过,要么说的比较单纯的像是给CallBack做了一个定义.当然了,我在理解了回 ...
谈谈DOMContentLoaded：Javascript中的domReady引入机制
一.扯淡部分回想当年,在摆脱写页面时js全靠从各种DEMO中copy出来然后东拼西凑的幽暗岁月之后,毅然决然地打算放弃这种处处“拿来主义”的不正之风,然后开启通往高大上的“前端攻城狮”的飞升之旅.想 ...
路由的Resolve机制（需要了解promise）
angular的resovle机制,实际上是应用了promise,在进入特定的路由之前给我们一个做预处理的机会 1.在进入这个路由之前先懒加载对应的 .js $stateProvider .state ...
Android权限管理之Permission权限机制及使用
前言: 最近突然喜欢上一句诗:"宠辱不惊,看庭前花开花落:去留无意,望天空云卷云舒." 哈哈~,这个和今天的主题无关,最近只要不学习总觉得生活中少了点什么,所以想着围绕着最近面试过 ...
Java学习之反射机制及应用场景
前言: 最近公司正在进行业务组件化进程,其中的路由实现用到了Java的反射机制,既然用到了就想着好好学习总结一下,其实无论是之前的EventBus 2.x版本还是Retrofit.早期的View注解框 ...

随机推荐

Dubbo入门到实战
前沿:在当下流行的分布式架构中Dubbo是非常流行的一门技术,借着这几天有空学习学习,并在后面的项目中进行实战,为后面的分布式项目做铺垫. Dubbox简介 Dubbox 是一个分布式服务框架,其前身 ...
python数据分析常用图大集合
目录一.折线图二.直方图三.垂直条形图四.水平条形图五.饼图六.箱线图七.热力图八.散点图九.蜘蛛图十.二元变量分布十一.面积图十二.六边形图以下默认所有的操作都先导入了Nu ...
html中如何清除浮动
在html中,浮动可以说是比较常用的.在页面的布局中他有着很大的作用,但是浮动中存在的问题也是比较多的.现在我们简单说一下怎么去除浮动首先我们先简单的看一下浮动: 首先我们先创建一个简单的div,并 ...
CTF--HTTP服务--SSI注入
开门见山 1. 扫描靶场ip,发现VM 192.168.31.160 2. 扫描主机服务信息和服务版本 3. 快速扫描靶场全部信息 4. 探测开放的http的敏感信息 5. 再用dirb扫描敏感页面 ...
JDK源码之Integer类分析
一简介 Integer是int基本类型的包装类,同样继承了Number类,实现了Comparable接口,String类中的一些转化方法就使用了Integer类中的一些API,且fianl修饰不可继 ...
Docker 使用笔记-常用基础命令
常用基础命令环境:Linux Ubuntu 1.查看docker信息 docker version | docker info 2.启动docker服务 sudo systemctl start d ...
面试官："谈谈分库分表吧？"
转自:学习Java的小姐姐 www.cnblogs.com/chenchen0618/p/11624480.html 1.什么是分库分表从字面上简单理解,就是将原本存储在一个库的数据分块存储在多个库 ...
WTL Picture Control显示图片
1.在对话框上新建一个Picture Control ID为:IDC_STATIC_IMG 2.添加图片资源ID:IDB_BITMAP1(选中Bitmap点击导入,选择bmp图片资源) 实现: CWi ...
C编程规范
目录 1.版面... 2.命名... 3.注释... 4.源代码结构... 附录A:常见单词缩写表... 1.版面 [规则1-1] 程序块要采用缩进风格编写,缩进的空格数为4个. [规则1-2] 对 ...
Java数据结构系列（1）——自平衡二叉树
1.基本概念所谓自平衡二叉树,就是当我们插入或删除元素之后,二叉树的高度会自动调整到最小,这样我们就可以在对数时间内查找二叉树内的元素. 2.定义 TreeSet<Elemtype> s ...

SparkShuffle机制

SparkShuffle机制的更多相关文章

随机推荐

热门专题