Spark源码学习1.2——TaskSchedulerImpl.scala
许久没有写博客了,没有太多时间,最近陆续将Spark源码的一些阅读笔记传上,接下来要修改Spark源码了。
这个类继承于TaskScheduler类,重载了TaskScheduler中的大部分方法,是Task调度的实际操作。
1、检测推测执行间隔,最大响应时间,每个task的CPU数。
2、指定调度模式SchedulingMode。
3、setDAGScheduler:设置任务调度的对象DAGScheduler。
4、initialize:初始化backend接口和资源池pool,并给资源池配置调度模式,FIFO或者Fair。Backend接口是TaskScheduler与底层资源管理器(如Mesos)交互的接口。
5、获取任务ID。
6、start:主要启动backend接口,检查是否是本地执行,检查是否启动推测执行(如果是就需要启动推测执行的线程)。
7、postStartHook:与start保持同步,等待backend准备好。
8、submitTasks:根据参数中的taskSet(即stage中的一群task)将task提交给集群中执行的UI,惯例先要检查是否是本地执行。
9、cancelTasks:根据stageId来取消任务,也就是取消stage。如果有任务已经运行,要先杀死任务再丢弃stage,否则直接丢弃stage。
10、taskSetFinished:当所有的任务都执行完成后,设置任务执行为完成,并清除其与TaskSetManager的联系。
11、resourceOffers:资源分配的重要方法。首先将各个可活动的节点和executor的地址都标记,添加executor时也要重新标记;然后,为第一次循环做准备,即获取已分配的任务、可用CPU数、排队的task;嵌套循环,循环标准为两个,排队的task和位置优先级,前者为每一个在等待的task,后者为最低优先级到task所标注的优先级;内部执行的操作也是一个循环,当有CPU可用时的while循环;while循环内是一个for循环,用来遍历所有的executor;for循环内部为一个for循环,用来遍历匹配task和executor。
注:优先级为Any、Rack_Local、No_PREF、NODE_LOCAL、PROCESS_LOCAL。
12、statusUpdate:更新各个task的状态,实际上是遍历所有的task,然后根据其TaskSet中记录的值来判断Task的状态。
13、executorHeartbeatReceived:重载心跳接收函数。
14、结果处理函数:handle**函数,用来处理任务运行结果、成功的任务、失败的任务等等;error函数,用来处理失败的错误报告;stop函数,用来关闭backend接口和任务结果接收的接口。
15、checkSpeculatableTasks:检查资源池中是否有需要启动推测执行的task,如果有则需要重新启动offers。
16、executorLost:处理失败的executor,打印错误信息。
17、removeExecutor:移除executor并标记其丢失。
18、waitBackendReady:等待backend接口准备好。
19、类TaskSchedulerImpl:对map按值的数量排序,然后建立索引。
Spark源码学习1.2——TaskSchedulerImpl.scala的更多相关文章
- Spark源码学习1.1——DAGScheduler.scala
本文以Spark1.1.0版本为基础. 经过前一段时间的学习,基本上能够对Spark的工作流程有一个了解,但是具体的细节还是需要阅读源码,而且后续的科研过程中也肯定要修改源码的,所以最近开始Spark ...
- Spark源码学习1.6——Executor.scala
Executor.scala 一.Executor类 首先判断本地性,获取slaves的host name(不是IP或者host: port),匹配运行环境为集群或者本地.如果不是本地执行,需要启动一 ...
- Spark源码学习1.3——TaskSetManager.scala
TaskSetManager.scala TaskSet是指一系列被提交的task,一般是代表特定的stage中丢失的partition.TaskSetManager通过一个TaskScheduler ...
- Spark源码学习1.8——ShuffleBlockManager.scala
shuffleBlockManager继承于Logging,参数为blockManager和shuffleManager.shuffle文件有三个特性:shuffleId,整个shuffle stag ...
- Spark源码学习1.5——BlockManager.scala
一.BlockResult类 该类用来表示返回的匹配的block及其相关的参数.共有三个参数: data:Iterator [Any]. readMethod: DataReadMethod.Valu ...
- Spark源码学习1.4——MapOutputTracker.scala
相关类:MapOutputTrackerMessage,GetMapOutputStatuses extends MapPutputTrackerMessage,StopMapOutputTracke ...
- Spark源码学习1.7——Master.scala
master第一步是加载系统定义的环境变量,如worker的超时时间.系统保留的Application数目等:第二步,加载worker的信 息,地址.id等:第三步,加载Application的信息, ...
- Spark源码学习2
转自:http://www.cnblogs.com/hseagle/p/3673123.html 在源码阅读时,需要重点把握以下两大主线. 静态view 即 RDD, transformation a ...
- Spark源码学习3
转自:http://www.cnblogs.com/hseagle/p/3673132.html 一.概要 本篇主要阐述在TaskRunner中执行的task其业务逻辑是如何被调用到的,另外试图讲清楚 ...
随机推荐
- Toolbar设置回退箭头的方法
Toolbar toolbar = (Toolbar) findViewById(R.id.toolbar); setSupportActionBar(toolbar); //关键下面两句话,设置了回 ...
- DataSet客户端分页实现
window.$ClientPageHelper=function(fromDs,toDs){ var pageSize=toDs.get('pageSize'); var elist=fromDs. ...
- SAP公司间采购订单关联交货单报表源代码(自己收藏)
SPAN { font-family: "Courier New"; font-size: 10pt; color: #000000; background: #FFFFFF } ...
- spring框架学习(五)注解
注解Annotation,是一种类似注释的机制,在代码中添加注解可以在之后某时间使用这些信息.跟注释不同的是,注释是给我们看的,Java虚拟机不会编译,注解也是不编译的,但是我们可以通过反射机制去读取 ...
- 了解真实的『REM』手机屏幕适配
rem 作为一个低调的长度单位,由于手机端网页的兴起,在屏幕适配中得到重用.使用 rem 前端开发者可以很方便的在各种屏幕尺寸下,通过等比缩放的方式达到设计图要求的效果. rem 的官方定义『The ...
- PHP PDO函数库详解
PDO是一个“数据库访问抽象层”,作用是统一各种数据库的访问接口,与mysql和mysqli的函数库相比,PDO让跨数据库的使用更具有亲和力:与ADODB和MDB2相比,PDO更高效.目前而言,实现“ ...
- .net乱码问题
最近在给一个客户做framwwork版本升级,从1.0版本升级到4.0版本,发现最大的问题就是乱码. 在1.0版本下,gb2312编码能够运行得很好,可是升级到4.0后就都是乱码. 随后将webcon ...
- fiddler监听127.0.0.1或localhost
localhost/127.0.0.1的请求不会通过任何代理发送,fiddler也就无法截获. 解决方案 1,用 http://localhost. (locahost紧跟一个点号)2,用 http: ...
- 矩阵k次幂 采用三重循环
#include<iostream> using namespace std; int main() { int n,k; ][],b[][],c[][]; while(cin>&g ...
- EF6 CodeFirst+Repository+Ninject+MVC4+EasyUI实践(完)
前言 这一篇是本系列的最后一篇,虽然示例讲到这里就停止呢,但对于这些技术的学习远不能停止.虽然本示例讲的比较基础,但是正如我第一篇说到的,这个系列的目的不是说一些高端的架构设计,而是作为一个入门级,对 ...