Spark源码学习1.2——TaskSchedulerImpl.scala

许久没有写博客了，没有太多时间，最近陆续将Spark源码的一些阅读笔记传上，接下来要修改Spark源码了。

这个类继承于TaskScheduler类，重载了TaskScheduler中的大部分方法，是Task调度的实际操作。

1、检测推测执行间隔，最大响应时间，每个task的CPU数。

2、指定调度模式SchedulingMode。

3、setDAGScheduler：设置任务调度的对象DAGScheduler。

4、initialize：初始化backend接口和资源池pool，并给资源池配置调度模式，FIFO或者Fair。Backend接口是TaskScheduler与底层资源管理器（如Mesos）交互的接口。

5、获取任务ID。

6、start：主要启动backend接口，检查是否是本地执行，检查是否启动推测执行（如果是就需要启动推测执行的线程）。

7、postStartHook：与start保持同步，等待backend准备好。

8、submitTasks：根据参数中的taskSet（即stage中的一群task）将task提交给集群中执行的UI，惯例先要检查是否是本地执行。

9、cancelTasks：根据stageId来取消任务，也就是取消stage。如果有任务已经运行，要先杀死任务再丢弃stage，否则直接丢弃stage。

10、taskSetFinished：当所有的任务都执行完成后，设置任务执行为完成，并清除其与TaskSetManager的联系。

11、resourceOffers：资源分配的重要方法。首先将各个可活动的节点和executor的地址都标记，添加executor时也要重新标记；然后，为第一次循环做准备，即获取已分配的任务、可用CPU数、排队的task；嵌套循环，循环标准为两个，排队的task和位置优先级，前者为每一个在等待的task，后者为最低优先级到task所标注的优先级；内部执行的操作也是一个循环，当有CPU可用时的while循环；while循环内是一个for循环，用来遍历所有的executor；for循环内部为一个for循环，用来遍历匹配task和executor。

注：优先级为Any、Rack_Local、No_PREF、NODE_LOCAL、PROCESS_LOCAL。

12、statusUpdate：更新各个task的状态，实际上是遍历所有的task，然后根据其TaskSet中记录的值来判断Task的状态。

13、executorHeartbeatReceived：重载心跳接收函数。

14、结果处理函数：handle**函数，用来处理任务运行结果、成功的任务、失败的任务等等；error函数，用来处理失败的错误报告；stop函数，用来关闭backend接口和任务结果接收的接口。

15、checkSpeculatableTasks：检查资源池中是否有需要启动推测执行的task，如果有则需要重新启动offers。

16、executorLost：处理失败的executor，打印错误信息。

17、removeExecutor：移除executor并标记其丢失。

18、waitBackendReady：等待backend接口准备好。

19、类TaskSchedulerImpl：对map按值的数量排序，然后建立索引。

Spark源码学习1.2——TaskSchedulerImpl.scala的更多相关文章

Spark源码学习1.1——DAGScheduler.scala
本文以Spark1.1.0版本为基础. 经过前一段时间的学习,基本上能够对Spark的工作流程有一个了解,但是具体的细节还是需要阅读源码,而且后续的科研过程中也肯定要修改源码的,所以最近开始Spark ...
Spark源码学习1.6——Executor.scala
Executor.scala 一.Executor类首先判断本地性,获取slaves的host name(不是IP或者host: port),匹配运行环境为集群或者本地.如果不是本地执行,需要启动一 ...
Spark源码学习1.3——TaskSetManager.scala
TaskSetManager.scala TaskSet是指一系列被提交的task,一般是代表特定的stage中丢失的partition.TaskSetManager通过一个TaskScheduler ...
Spark源码学习1.8——ShuffleBlockManager.scala
shuffleBlockManager继承于Logging,参数为blockManager和shuffleManager.shuffle文件有三个特性:shuffleId,整个shuffle stag ...
Spark源码学习1.5——BlockManager.scala
一.BlockResult类该类用来表示返回的匹配的block及其相关的参数.共有三个参数: data:Iterator [Any]. readMethod: DataReadMethod.Valu ...
Spark源码学习1.4——MapOutputTracker.scala
相关类:MapOutputTrackerMessage,GetMapOutputStatuses extends MapPutputTrackerMessage,StopMapOutputTracke ...
Spark源码学习1.7——Master.scala
master第一步是加载系统定义的环境变量,如worker的超时时间.系统保留的Application数目等:第二步,加载worker的信息,地址.id等:第三步,加载Application的信息, ...
Spark源码学习2
转自:http://www.cnblogs.com/hseagle/p/3673123.html 在源码阅读时,需要重点把握以下两大主线. 静态view 即 RDD, transformation a ...
Spark源码学习3
转自:http://www.cnblogs.com/hseagle/p/3673132.html 一.概要本篇主要阐述在TaskRunner中执行的task其业务逻辑是如何被调用到的,另外试图讲清楚 ...

随机推荐

Redis ConnectionException
JAVA 远程链接Redis服务失败,错误信息如下: redis.clients.jedis.exceptions.JedisConnectionException: Could not get a ...
selenium遇到readonly元素的输入
方法:去掉该元素的readonly属性使用js来去掉 ((JavaScriptExecutor ) driver).executeScript($("input#{放置元素的CLASS}[ ...
d3 scale 学习笔记
讲解scale 的好材料 https://www.dashingd3js.com/d3js-scales
for语句嵌套循坏性能的剖析
日常工作中,处理数据难免会遇到遍历,for循环可能是我们用的比较多的了.本节就来探讨下for语句嵌套循环的性能,猜想下面两个语句的性能. 语句1 ; i < ; i++){ ; j < ; ...
奇淫绝技：Mysql报错注入利用总结分享
http://xxx.cn/qcwh/content/detail.php?id=330&sid=19&cid=261 and exists(select*from (select*f ...
20145236 GDB调试汇编堆栈过程分析
GDB调试汇编堆栈过程分析首先需要输入sudo apt-get install libc6-dev-i386安装一个库才能产生汇编代码,然后输入gcc - g example.c -o exampl ...
bootstrap中如何让响应式图片（img-responsive）水平居中
我们在用bootstrap排版内容的时候,有的时候在内容中需要图片水平居中对齐. 一般情况下,我们的图片都使用了 .img-responsive 类来实现响应式图片.如果需要实现响应式图片水平居中,那 ...
WPF中Grid布局
WPF中Grid布局XMAl与后台更改,最普通的登录界面为例. <Grid Width="200" Height="100" > <!--定义 ...
IOS开发之画图形
1 画线 2 画线第二个方法相对方法1简洁 3 矩形 4 圆 5 弧线 6画文字(略) 7 画图片(略)
node.js中buffer需要知道的一些点
本文为阅读朴灵大大的<深入浅出node.js>笔记: 在前端开发的时候,我们不曾用过buffer,也没得用.buffer是node环境引入的,用来方便应对二进制数据的处理.这里我们对它应该 ...

Spark源码学习1.2——TaskSchedulerImpl.scala

Spark源码学习1.2——TaskSchedulerImpl.scala的更多相关文章

随机推荐

热门专题