Spark源码学习1.1——DAGScheduler.scala

本文以Spark1.1.0版本为基础。

经过前一段时间的学习，基本上能够对Spark的工作流程有一个了解，但是具体的细节还是需要阅读源码，而且后续的科研过程中也肯定要修改源码的，所以最近开始Spark的源码的学习。首先以重要文件为基础分别分析，然后再整体的分析。

（一）DAGScheduler.scala文件的主要功能

DAGScheduler是划分Job为stage的调度，它是在作业所需要的数据已经被分为RDD之后执行的。DAGScheduler将Job划分为DAG图，以stage为图的结点，明确了各个stage之间的依赖关系，然后依次提交stage和Job。

（二）DAGScheduler.scala中的类和方法

1、initializeEventProcessActor()

该方法初始化eventProcessActor，也就是说，它可以阻塞线程直到supervisor启动，而在这整个过程中eventProcessActor都不会空闲。

2、executorHeartbeatReceived(execId,taskMetrics,blockManagerId)

该方法有三个参数，是用来接收心跳信息的。心跳信息是各个节点向master提供当前状态的，通知master当前节点是正在运行任务的，而运行任务的单位正是executor。

关于executor的方法还有：executorLost()处理executor执行失败，executorAdd()处理executor添加和tasksetFailed()设置任务失败。

3、getcacheLocs(RDD[_])

该方法查询本地缓存，检查本地存在哪些RDD，RDD的本地性是关系到stage分配的重要因素，在后文的函数中会实现。

关于Cache的方法还有：clearcacheLocs()清除缓存。

4、getShuffleMapStage(ShuffleDependence[_,_,_],JobId)

该方法是stage建立的关键，它明确stage的建立方法是以shuffle为边界的，如果出现wide依赖关系，那么就是shuffle的边界，就可以建立新的stage了，建立stage的方法为newOrUsedStage。

5、newStage(RDD[_],numTask,shuffleDependence,JobId,callsite)和newOrUsedStage(RDD[_],numTask,shuffleDependence,JobId,callsite)

这两个方法以同样的参数建立Stage，不同的是前者是建立无依赖关系的stage，而后者是由父系stage建立的有一定依赖关系的stage。

6、getParentStage(RDD[_],JobId)

该方法根据参数中的RDD数组（也就是一个stage中的所有RDD），查询当前RDD所属的Stage。

7、registerShuffleDependencies(shuffleDependencies[_,_,_],JobId)

该方法扫描依赖关系，利用getAncestorShuffleDependencies返回的RDD关系栈将依赖关系加入到Stage中。

8、getAncestorShuffleDependencies(RDD[_])

该方法建立RDD之间的依赖关系。

9、getMissingParentStages(stage)

该方法在getShuffleMapStage的基础上确定Stage的父系Stage，利用的也是RDD之间的依赖关系。

10、updataJobIdStageIdMaps(JobId,stage)

该方法用来更新Stage中的StageId和JobId。

11、cleanupStateForJobAndIndependentStages(Job)

该方法清除一个活动的Job的所有状态，以及其所属的不再需要的stage的状态。

12、submit[T,U](RDD[T],func,partitions,callsite,allowlocal,resulthandler,properties)

向任务调度器提交一个Job，并同时差生一个Jobwaiter，这个Jobwaiter可以用来保证Job执行时其他Job是阻塞的，也可以用来取消Job。

13、runJob[T,U](RDD[T],func,partitions,callsite,allowlocal,resulthandler,properties)

这个方法其实只是对Job提交之后的一个返回信息的处理，如果submitJob方法没有返回异常，就表示执行正确了，否则报错并加入日志。

14、runApproxiateJob[T,U,R](RDD[T],func,partitions,evaluator,callsite,timeout,properties)

该方法执行当前Job的下一个Job。

15、取消任务或者Stage的相关方法：doCancelAllJobs()，cancelStage(stageId)

16、重新提交失败的或者等待的Stage的方法：resubmitFailedStages()，submitWaitingStages()

17、runLocally(Job)和runLocallyWithinThread(job)

前者建立新的线程，启动本地执行；后者在线程中实际执行Job。

18、handle***()

这一些以handle开头的方法特点是进行了多次判定。handleJobSubmitted()方法对已经提交的Job进行操作，找到最后一个的Stage，检查Job执行的本地性等，然后将Job中的最后一个Stage提交，提交方法为submitStage()。submitStage()会根据最后一个Stage依次提交父系Stage，这其中需要考虑到丢失的task。handleTaskCompletion()方法在于处理Task执行后的各种状况，失败、阻塞或者失去联系，重新提交Task。详细的代码涉及诸多方法和类。

19、getPreferredLocsInternal(RDD，partition，visited)

根据Cache和输入RDD的位置和依赖关系递归查询最适合的位置。

Spark源码学习1.1——DAGScheduler.scala的更多相关文章

Spark源码学习1.2——TaskSchedulerImpl.scala
许久没有写博客了,没有太多时间,最近陆续将Spark源码的一些阅读笔记传上,接下来要修改Spark源码了. 这个类继承于TaskScheduler类,重载了TaskScheduler中的大部分方法,是 ...
Spark源码学习1.6——Executor.scala
Executor.scala 一.Executor类首先判断本地性,获取slaves的host name(不是IP或者host: port),匹配运行环境为集群或者本地.如果不是本地执行,需要启动一 ...
Spark源码学习1.3——TaskSetManager.scala
TaskSetManager.scala TaskSet是指一系列被提交的task,一般是代表特定的stage中丢失的partition.TaskSetManager通过一个TaskScheduler ...
Spark源码学习1.8——ShuffleBlockManager.scala
shuffleBlockManager继承于Logging,参数为blockManager和shuffleManager.shuffle文件有三个特性:shuffleId,整个shuffle stag ...
Spark源码学习1.5——BlockManager.scala
一.BlockResult类该类用来表示返回的匹配的block及其相关的参数.共有三个参数: data:Iterator [Any]. readMethod: DataReadMethod.Valu ...
Spark源码学习1.4——MapOutputTracker.scala
相关类:MapOutputTrackerMessage,GetMapOutputStatuses extends MapPutputTrackerMessage,StopMapOutputTracke ...
Spark源码学习1.7——Master.scala
master第一步是加载系统定义的环境变量,如worker的超时时间.系统保留的Application数目等:第二步,加载worker的信息,地址.id等:第三步,加载Application的信息, ...
Spark源码学习2
转自:http://www.cnblogs.com/hseagle/p/3673123.html 在源码阅读时,需要重点把握以下两大主线. 静态view 即 RDD, transformation a ...
Spark源码学习3
转自:http://www.cnblogs.com/hseagle/p/3673132.html 一.概要本篇主要阐述在TaskRunner中执行的task其业务逻辑是如何被调用到的,另外试图讲清楚 ...

随机推荐

textarea 多行文本保存数据到DB，取出后恢复换行
Steps: 1.保存到数据库之前把textarea中的换行字符转换为<br>. var dbStr = textareaStr.replace(/\n|\r\n/g,"< ...
linux下安装及配置和启动memcached
一.下载文件: 下载memcached和libevent,放到/hom/zwl/目录下 # wget http://www.danga.com/memcached/dist/memcached-1.2 ...
从ASP了解Http Buffer
he Buffer property specifies whether to buffer the output or not. When the output is buffered, the s ...
25、java中观察者模式Observable和Observer
如果想要实现观察者模式,则必须依靠java.util包中提供的Observable类和Observer接口观察者设计模式现在很多的购房者都在关注着房子的价格变化,每当房子价格变化的时候,所有的购房 ...
spring data实现自定义的repository实现类，实现跟jpa联通
如果你不想暴露那么多的方法,可以自己订制自己的Repository,还可以在自己的Repository里面添加自己使用的公共方法当然更灵活的是自己写一个实现类,来实现自己需要的方法 1:写一个与接口 ...
QQ（iOS）客户端的粘性动画效果
qq的app中要是有新的联系人发消息过来,相应联系人的cell右边会有一个红色的圆圈表示消息条数.如果去触碰那个圆圈,可以发现它竟然会跟着手指的移动而移动. 在一定范围内,手指离开屏幕,会发现红色圆圈 ...
ANSI C与GNU C
GNU计划,又称革奴计划,是由Richard Stallman在1983年9月27日公开发起的.它的目标是创建一套完全自由的操作系统.它在编写linux的时候自己制作了一个标准成为 GNU C标准.A ...
CSS和Js样式属性的对照关系
注意:1.在使用js时,如newTD.style.paddingLeft="200";(错误),正确生效的写法是newTD.style.paddingLeft="200p ...
(37) 在命令行调用API
l 前言有时为了更好地调整和改动数据会和到cli ,这会给我们带来更高的效率,基于官网的文档很是简单,这里就带大家一起运用 cli l 搭建在项目下面有文件odoo.py 这个文件 ,对就是用这个 ...
【转】浅析python 中__name__ = '__main__' 的作用
原文链接:http://www.jb51.net/article/51892.htm 举例说明解释的非常清楚,应该是看到的类似博文里面最简单的一篇: 这篇文章主要介绍了python 中__name__ ...

Spark源码学习1.1——DAGScheduler.scala

Spark源码学习1.1——DAGScheduler.scala的更多相关文章

随机推荐

热门专题