Spark源码学习1.4——MapOutputTracker.scala

相关类：MapOutputTrackerMessage，GetMapOutputStatuses extends MapPutputTrackerMessage，StopMapOutputTracker extends MapOutputTrackerMessage，MapOutputTrackerMasterActor，MapOutputTrackerMaster。

首先重写MapOutputTrackerMasterActor的receiveWithLogging：判断MapOutputTracker需要处理的类型是GetMapOutputStatuses()，获取MapOutputTracker的状态；或者是StopMapOutputTracker，停止MapOutputTracker。

一、MapOutputTracker是一个abstract抽象类。获取的Map out的信息根据master和worker有不同的用途：master上，用来记录ShuffleMapTasks所需的map out的源；worker上，仅仅作为cache用来执行shuffle计算。

1、askTracker()：检查MapOutputTracker的连接是否正常。

2、sendTracker()：检查MapOutPutTracker是否正常工作（发送任意信息返回true）。

3、getServerStatuses()：根据参数shuffle id来获取shuffle对应的map out所在的位置及信息。如果没有直接的对应shuffle id的信息，则需要从所有的map中匹配对应shuffle id的map out。

4、getEpoch()和updateEpoch()：获取和更新epoch的值。epoch的值是与master同步的，保证map outs是最新的有用的。

二、MapOutPutTrackerMaster针对master的MapOutPutTracker，按照前文的意思，它的作用是为每个shuffle准备其所需要的所有map out，可以加速map outs传送给shuffle的速度。在存储map out的HashMap中，HashMap是基于时间戳的，因此map outs被减少只能因为它被注销掉或者生命周期耗尽。

1、registerShuffle()：在map out的集合mapStatuses中注册新的Shuffle，参数为Shuffle id和map的个数。

2、registerMapOutPut()：根据Shuffle id在mapStatuses中为Shuffle添加map out的状态（存储的map out其实就是map out的状态）。

3、registerMapOutPuts()：同时添加多个map out。

4、unregisterMapOutPut()：在mapStatuses中注销给定Shuffle的map out。

5、重写unrigesterShuffle()：移除mapStatuses中的给定Shuffle的map out。

6、containShuffle()：判断是否存在给定的Shuffle。

7、incrementEpoch()：同步epoch加一。

8、getSerializedMapOutputStatuses()：给定Shuffle id，返回其map out集合。首先是对epoch进行锁状态下的同步，保证获取资源的正确性；其次，根据Shuffle id获取指定位置的statuses，如果指定位置没有对应Shuffle id的statuses，那么获取这个位置的statuses快照返回，作为参考；最后，如果操作的epoch与锁状态下的epoch是一致的，将获取到的statuses存入缓存。

9、stop()：停止MapOutPutTracker，清除mapStatuses，清空缓存。

10、cleanup()：在指定时间清除mapStatuses和cachedSerializedStatuses。

三、MapOutPutTracker对象。它通过serializedMapStatuses将map out流通过gzip的压缩方式压缩（压缩是可行的，因为很多map out基于同样的hostname），这样方便数据流传递给reduce进行操作。

Spark源码学习1.4——MapOutputTracker.scala的更多相关文章

Spark源码学习1.2——TaskSchedulerImpl.scala
许久没有写博客了,没有太多时间,最近陆续将Spark源码的一些阅读笔记传上,接下来要修改Spark源码了. 这个类继承于TaskScheduler类,重载了TaskScheduler中的大部分方法,是 ...
Spark源码学习1.1——DAGScheduler.scala
本文以Spark1.1.0版本为基础. 经过前一段时间的学习,基本上能够对Spark的工作流程有一个了解,但是具体的细节还是需要阅读源码,而且后续的科研过程中也肯定要修改源码的,所以最近开始Spark ...
Spark源码学习1.6——Executor.scala
Executor.scala 一.Executor类首先判断本地性,获取slaves的host name(不是IP或者host: port),匹配运行环境为集群或者本地.如果不是本地执行,需要启动一 ...
Spark源码学习1.8——ShuffleBlockManager.scala
shuffleBlockManager继承于Logging,参数为blockManager和shuffleManager.shuffle文件有三个特性:shuffleId,整个shuffle stag ...
Spark源码学习1.5——BlockManager.scala
一.BlockResult类该类用来表示返回的匹配的block及其相关的参数.共有三个参数: data:Iterator [Any]. readMethod: DataReadMethod.Valu ...
Spark源码学习1.3——TaskSetManager.scala
TaskSetManager.scala TaskSet是指一系列被提交的task,一般是代表特定的stage中丢失的partition.TaskSetManager通过一个TaskScheduler ...
Spark源码学习1.7——Master.scala
master第一步是加载系统定义的环境变量,如worker的超时时间.系统保留的Application数目等:第二步,加载worker的信息,地址.id等:第三步,加载Application的信息, ...
Spark源码学习2
转自:http://www.cnblogs.com/hseagle/p/3673123.html 在源码阅读时,需要重点把握以下两大主线. 静态view 即 RDD, transformation a ...
spark源码学习-withScope
withScope是最近的发现版中新增加的一个模块,它是用来做DAG可视化的(DAG visualization on SparkUI) 以前的sparkUI中只有stage的执行情况,也就是说我们 ...

随机推荐

冰球项目日志3-yjw
小组讨论今天大家讨论了之前各自想的方案的问题,基本确定了寻找击球点的方案,以及击球手运动轨迹规划的方案,这里我只是简单的说下我们的击球点的确定方案. 击球策略方案方案分析首先我们建立平面在直角坐 ...
OneProxy添加license
proxy-license=XXXX-XXXX-XXXX-XXXX 放到proxy.conf中,然后重启proxy
phpstorm使用手册
参考:http://www.cnblogs.com/luojianqun/p/4596052.html 罗总说这是php最好的IDE,phpstorm9.02,没有之一.各种功能各种好,罗总此等大神说 ...
LoadRunner脚本参数化设置
LoadRunner,是一种预测系统行为和性能的负载测试工具,其中VUG(Virtual User Generator)主要用于虚拟用户生成和脚本编辑.为了实现单用户多次迭代执行脚本,VUG提供了强大 ...
centos7安装redis
方法一:使用命令安装(前提是已经安装了EPEL). 安装redis: yum -y install redis 启动/停止/重启 Redis 启动服务: 1 systemctl start redis ...
揭开Socket编程的面纱
对TCP/IP.UDP.Socket编程这些词你不会很陌生吧?随着网络技术的发展,这些词充斥着我们的耳朵.那么我想问: 1. 什么是TCP/IP.UDP? 2. Socket在哪里呢? 3. Sock ...
如何解决子元素设了margin-top之后父元素所受的影响
解决方法: 1.在父元素上加:overflow:hidden. 2.给父元素加border; 3.外容器上加上padding.
HTML5中引入的关键特性
新特性描述 accesskey 定义通过键盘访问元素的快捷键 contenteditable 该特性设置为true时,浏览器应该允许用户编辑元素的内容.不指定变化后的内容如何保存 contextme ...
CA02检验计划批量导入模板在文件
*&---------------------------------------------------------------------* *& PROGRAM NAME(EN) ...
PHP xml 转换为 array
retrun json_decode(json_encode(simplexml_load_string($xml, 'SimpleXMLElement', LIBXML_NOCDATA)), tru ...

Spark源码学习1.4——MapOutputTracker.scala

Spark源码学习1.4——MapOutputTracker.scala的更多相关文章

随机推荐

热门专题