Spark源码学习1.8——ShuffleBlockManager.scala

shuffleBlockManager继承于Logging，参数为blockManager和shuffleManager。shuffle文件有三个特性：shuffleId，整个shuffle stage所具有的唯一Id；bucketId，输出的partition的Id；fileId，标志着这一组文件属于同一个shuffle，每个task在同一时间只有一个fileId，执行完成后fileId归还资源池。shuffle的状态由shuffleState类来描述，包含其相关的所有状态信息，包括：分配给该shuffle的fileGroup（已使用的和全部的两种）；完成的mapTask的Id，这些mapTask是指shuffle所在executor上为它所需要的所有mapTask。

1、addCompleteMap()：添加已经完成的、符合条件的mapTask至shuffleState。这个方法应该在基于sort的shuffle中使用，因为只有基于sort的shuffle才会在map完成后在单个文件内进行排序（并不是整个文件进行排序！）。

2、forMapTask()：给定mapTask后，生成shuffleWriteGroup。map的结果写入文件，需要创建一个writers对BlockManager提供的block进行写操作。同时，在创建的shuffleWriteGroup中定义新的操作函数，releaseWriters，释放writers操作；getUnusedFileGroup，根据shuffleState获取未使用的FileGroup；newFileGroup，新建FileGroup，需要向BlockManager拉取文件信息，组成洗呢FileGroup。

3、getBlockLocation()：给定shuffleBlockId，查找其物理文件所在的地址。这个方法只有在shuffle file允许consolidation时才能被使用，因为consolidation涉及到shuffle的相关文件的consolidation，必须根据shuffleBlockId查找物理文件。

4、removeShuffle()和removeShuffleBlocks()：前者移除Shuffle相关的block、file和中间数据，后者不移除中间数据。

定义了一个ShuffleBlockManager的对象，该对象需要存储FileGroup所在的第一个block的Id，偏移位置等，能够快速获取Shuffle所需文件。

从MapOutputTracker到shuffleBlockManager阶段需要经过以下方面：

1、写入Block，相关文件为BlockObjectWriter.scala，负责将数据写入Block；

2、shuffle匹配Block中的数据，相关文件为BlockStoreShuffleFetcher.scala。

因此完整的路径为：

MapOutPutTracker：将Map的输出做负载均衡，因为file之间不平衡将导致文件传输的不平衡，与原来的shuffle读取file中的segment有区别。

BlockObjectWriter：将Map的输出写入block，原先的数据写入是严格区分segment然后压缩，新的方法是不用区分segment，方便解压缩数据后整个文件能够直接使用。

BlockStoreShuffleFetcher：按照shuffleId将数据块拼接到一个文件中，供worker拉取。

ShuffleBlockManager：拉取到文件后，获取相应的分块，然后进行Shuffle操作。

Spark源码学习1.8——ShuffleBlockManager.scala的更多相关文章

Spark源码学习1.2——TaskSchedulerImpl.scala
许久没有写博客了,没有太多时间,最近陆续将Spark源码的一些阅读笔记传上,接下来要修改Spark源码了. 这个类继承于TaskScheduler类,重载了TaskScheduler中的大部分方法,是 ...
Spark源码学习1.1——DAGScheduler.scala
本文以Spark1.1.0版本为基础. 经过前一段时间的学习,基本上能够对Spark的工作流程有一个了解,但是具体的细节还是需要阅读源码,而且后续的科研过程中也肯定要修改源码的,所以最近开始Spark ...
Spark源码学习1.6——Executor.scala
Executor.scala 一.Executor类首先判断本地性,获取slaves的host name(不是IP或者host: port),匹配运行环境为集群或者本地.如果不是本地执行,需要启动一 ...
Spark源码学习1.5——BlockManager.scala
一.BlockResult类该类用来表示返回的匹配的block及其相关的参数.共有三个参数: data:Iterator [Any]. readMethod: DataReadMethod.Valu ...
Spark源码学习1.4——MapOutputTracker.scala
相关类:MapOutputTrackerMessage,GetMapOutputStatuses extends MapPutputTrackerMessage,StopMapOutputTracke ...
Spark源码学习1.3——TaskSetManager.scala
TaskSetManager.scala TaskSet是指一系列被提交的task,一般是代表特定的stage中丢失的partition.TaskSetManager通过一个TaskScheduler ...
Spark源码学习1.7——Master.scala
master第一步是加载系统定义的环境变量,如worker的超时时间.系统保留的Application数目等:第二步,加载worker的信息,地址.id等:第三步,加载Application的信息, ...
Spark源码学习2
转自:http://www.cnblogs.com/hseagle/p/3673123.html 在源码阅读时,需要重点把握以下两大主线. 静态view 即 RDD, transformation a ...
spark源码学习-withScope
withScope是最近的发现版中新增加的一个模块,它是用来做DAG可视化的(DAG visualization on SparkUI) 以前的sparkUI中只有stage的执行情况,也就是说我们 ...

随机推荐

python简介和入门
一.什么是python? python是一种面向对象.解释型的计算机语言,它的特点是语法简洁.优雅.简单易学. 二.解释型语言和编译型语言编译型语言--就是先把写好的程序翻译成计算机语言然后执行,就 ...
破解YunFile下载间隔10分钟/下载等待30秒
[破解10分钟间隔] 可以采用断网重连等方法重新获取IP地址,就不用再等十分钟了 [破解30秒等待] 收藏一个书签,书签地址如下 javascript:var downpage_link = docu ...
WordPress登陆页和后台面空白解决方法
真没想到我居然也会碰到这么蛋疼的事情,有一天我登陆博客,输入账号密码之后登陆没有反应,之后我就试着用首页前台登陆(因为这个模板前台带登陆功能),之后成功登陆进入后台更新文章.我想算了.这小毛病就丢那吧 ...
关于maven
主要涉及的配置文件是setting.xml与pom.xml 其中setting配置文件主要负责加载jar包路径设置, pom.xml文件主要负责jar包配置. 包含jar包的版本. maven打包:之 ...
PHP弱类型需要特别注意的问题
下面介绍的问题都已验证, 总结:字符数据比较==不比较类型,会将字符转数据,字符转数字(转换直到遇到一个非数字的字符.即使出现无法转换的字符串,intval()不会报错而是返回0).0e,0x开头的字 ...
Swift 07.关键字
每一种语言都有相应的关键词,每个关键词都有他独特的作用,来看看swfit中的关键词: 关键词: 用来声明的: class, deinit, enum, extension, func, import, ...
linux 下mysql 开启远程连接
系统通过netstat -ntlp 来查看正在运行服务所使用的端口 ,查看3306端口是否开启. 防火墙iptables 如果是新装的系统, 一般不用管这个因素,不过我们也先用service i ...
WCF初探-26：WCF中的会话
理解WCF中的会话机制在WCF应用程序中,会话将一组消息相互关联,从而形成对话.会话”是在两个终结点之间发送的所有消息的一种相互关系.当某个服务协定指定它需要会话时,该协定会指定所有调用(即,支持调 ...
Oracle 添加第二个实例和监听
1.添加第二个实例配置和移植工具 -->Database Configuration Assistant 然后一步一步创建实例(实例名为ORCL2) 创建成功后会在系统的服务里面有个服务名称为 ...
Bootstrap <基础二十九>面板（Panels）
Bootstrap 面板(Panels).面板组件用于把 DOM 组件插入到一个盒子中.创建一个基本的面板,只需要向 <div> 元素添加 class .panel 和 class .pa ...

Spark源码学习1.8——ShuffleBlockManager.scala

Spark源码学习1.8——ShuffleBlockManager.scala的更多相关文章

随机推荐

热门专题