DagScheduler 和 TaskScheduler
DagScheduler 和 TaskScheduler 的任务交接
spark 调度器分为两个部分, 一个是 DagScheduler, 一个是 TaskScheduler, DagScheduler 主要是用来把一个 Job 根据宽依赖划分为多个Stage(阶段),
对于划分出来的每个 stage 都抽象为一个 TaskSet任务集 交给 TaskScheduler 来进行进一步的调度运行,

我们来看一张图, 来理清里面的概念, 我们用户编程使用的 RDD, 每个 RDD都有一个分区数, 这个分区数目创建 RDD 的时候有一个初始值,运行过程中,根据配置的 parallelism 参数 和 shuffle 过程中显示指定的分区数目 来调整个数
我们可以看到, 一个 task 对应一个 stage 里面一个分区数据的处理任务, task 又分为 ShuffleMapTask 和 ResultTask , 区分任务是中间阶段的任务 还是最后一个阶段的任务。
而一个 stage 里面 所有分区的任务集合 就被包装为一个 TaskSet 交给了 TaskScheduler,
TaskScheduler 调度方式
TaskScheduler 会为每个 TaskSet 创建一个 TaskScheduler, 作为一个调度单位, 放在任务池子里面,
调度池分为两种, 一种使用 FIFO调度方式 , 还有一种使用 Fair调度方式
FIFO调度方式

这种方式 rootPool 下面直接就是 TaskSetManager , 没有子 Pool,
根据 FIFOSchedulingAlgorithm 算法排序, 这种方式排序方式很简单, 直接就是先进先出队列的排序方式对多个 TaskSetManager 进行排队,
Fair调度方式

这种方式 rootPool 是根 pool, 下一级是 用户定义的 Pool, 这一层是为了给不同的用户定义不同的优先级用的,
用户 Pool 下面才是 TaskSetManager
FairSchedulingAlgorithm 算法,排序方式是由两个因子控制,
weight: 控制资源池相对其他资源池,可以分配到资源的比例。默认所有资源池的weight都是1。如果你将某个资源池的weight设为2,那么该资源池中的资源将是其他池子的2倍。如果将weight设得很高,如1000,可以实现资源池之间的调度优先级 – 也就是说,weight=1000的资源池总能立即启动其对应的作业。
minShare:除了整体weight之外,每个资源池还能指定一个最小资源分配值(CPU个数),管理员可能会需要这个设置。公平调度器总是会尝试优先满足所有活跃(active)资源池的最小资源分配值,然后再根据各个池子的weight来分配剩下的资源。因此,minShare属性能够确保每个资源池都能至少获得一定量的集群资源。minShare的默认值是0。
排序也是递归的, 因为 rootPool 下面有多个 用户自己的 Pool, 要先根据 FairSchedulingAlgorithm 算法对多个 用户的Pool 排序, 然后对一个 Pool 中的多个 TaskSetManager 也使用 FairSchedulingAlgorithm 算法排序。
任务实际运行的触发方式
触发方式有两种,
一堆任务 从 DagScheduler 到 TaskSetManager 提交过来了, 这个时候可能有 大量 executor 的cpu 都闲着呢, 所以要 唤醒他们过来领任务去执行, 这种我们叫做唤醒方式,
一个正在执行的任务跑完了, executor 报告任务已经执行完的时候, 这个时候 这个 cpu 又闲着了,看看有没有 任务去领一下, 这种我们叫做干完了手里的活接着干方式
有可能增加了新的 Executor ,这个 executor 来注册了, 相当于产生了新的劳动力, 肯定也要去领活干, 我们叫新劳动力领活干方式,
对于 唤醒方式 就是 TaskScheduler 把 TaskScheduler, 作为一个调度单位, 放在任务池子里面后, 然后 调用 reviveOffers 来唤醒, 里面是调用 makeOffers() 方法,
对于 干完了手里的活接着干方式, 就是 接受到了 StatusUpdate 消息, 会去调用一下 makeOffers(executorId)
对于 新劳动力领活干方式 就是接受到 RegisterExecutor 消息后调用一下 makeOffers()
我们来看下 makeOffers() 方法,
val workOffers = IndexedSeq(
new WorkerOffer(executorId, executorData.executorHost, executorData.freeCores))
launchTasks(scheduler.resourceOffers(workOffers))
把执行单位包装为 一个 WorkerOffer ,然后调用 taskSchedule 的 resourceOffers方法, 这个方法的注释如下
Called by cluster manager to offer resources on slaves. We respond by asking our active task
sets for tasks in order of priority. We fill each node with tasks in a round-robin manner so
that tasks are balanced across the cluster.
这个是 resourceOffers 函数的注释, 就是从把任务池子 中的任务排队, 然后取出最前面的任务, 来和 执行单位相结合, 这里需要注意的是, 会把任务尽可能均匀的分配到每个node 上, 一个任务和一个执行单位的结合包装为一个 TaskDescription, 然后把任务发送到执行单位上去执行,

上图中我们可以看到, 只要有空闲的 executor 就会提供资源给 task, 首先要把 workerOffer shuffle 打乱一下, 免得过分蹂躏个别的 executor。
DagScheduler 和 TaskScheduler的更多相关文章
- Spark核心作业调度和任务调度之DAGScheduler源码
前言:本文是我学习Spark 源码与内部原理用,同时也希望能给新手一些帮助,入道不深,如有遗漏或错误的,请在原文评论或者发送至我的邮箱 tongzhenguotongzhenguo@gmail.com ...
- spark1.1.0源码阅读-dagscheduler and stage
1. rdd action ->sparkContext.runJob->dagscheduler.runJob def runJob[T, U: ClassTag]( rdd: RDD[ ...
- TaskScheduler
一初始化 在SparkContext初始化的时候,同时初始化三个对象.DAGScheduler,TaskScheduler,SchedulerBackend.DAGScheduler,前面已经讲到,做 ...
- Spark源码分析 -- TaskScheduler
Spark在设计上将DAGScheduler和TaskScheduler完全解耦合, 所以在资源管理和task调度上可以有更多的方案 现在支持, LocalSheduler, ClusterSched ...
- Spark源码分析 – DAGScheduler
DAGScheduler的架构其实非常简单, 1. eventQueue, 所有需要DAGScheduler处理的事情都需要往eventQueue中发送event 2. eventLoop Threa ...
- 【Spark】DAGScheduler源代码浅析
DAGScheduler DAGScheduler的主要任务是基于Stage构建DAG,决定每个任务的最佳位置 记录哪个RDD或者Stage输出被物化 面向stage的调度层.为job生成以stage ...
- spark 笔记 7: DAGScheduler
在前面的sparkContex和RDD都可以看到,真正的计算工作都是同过调用DAGScheduler的runjob方法来实现的.这是一个很重要的类.在看这个类实现之前,需要对actor模式有一点了解: ...
- Spark的StandAlone模式原理和安装、Spark-on-YARN的理解
Spark是一个内存迭代式运算框架,通过RDD来描述数据从哪里来,数据用那个算子计算,计算完的数据保存到哪里,RDD之间的依赖关系.他只是一个运算框架,和storm一样只做运算,不做存储. Spark ...
- Spark调度管理(读书笔记)
Spark调度管理(读书笔记) 转载请注明出处:http://www.cnblogs.com/BYRans/ Spark调度管理 本文主要介绍在单个任务内Spark的调度管理,Spark调度相关概念如 ...
随机推荐
- 更新日志(建议升级到2017.1.18a) && 更新程序的方法
更新程序的步骤: 1,在控制面板里点击备份当前数据库文件到磁盘,把当天获取的信息从内存写到磁盘/存储卡.2,下载最新版的源码 wget -O "infopi.zip" " ...
- springmvc框架的搭建
1引入jar包 jar包下载地址http://maven.springframework.org/release/org/ 以下是我引入的jar包 aopalliance-1.0.jaraspectj ...
- Hibernate中一级缓存和二级缓存
缓存是介于应用程序和物理数据源之间,其作用是为了降低应用程序对物理数据源访问的频次,从而提高了应用的运行性能.缓存内的数据是对物理数据源中的数据的复制,应用程序在运行时从缓存读写数据,在特定的时刻或事 ...
- 重新认识trim,ltrim,rtrim,trailing和leading。
trim经常用来去除一个字符串的空格,select trim(' dhajkjwa ') from dual; 在上面的语句中,trim的前面也可以加r或者l,表示去掉前面或者后面的空格,r和l代表左 ...
- Tunnel Warfare (区间合并|最大值最小值巧妙方法)
Tunnel Warfare http://acm.hdu.edu.cn/showproblem.php?pid=1540 Time Limit: 4000/2000 MS (Java/Others) ...
- Vmware迁移以后eth0消失,无法上网
一个再普通不过的大神帮助小菜做虚拟机镜像的事情: 小张:帮我做个Vmware下的Ubuntu镜像吧,大神. 小黄:好啊,等我一下,下午发给你. 经过一番操作,小黄顺利的做出了一个虚拟机操作系统 小黄: ...
- binlog怎样参与mysql recover的
转自 Louis Hust's Blog MySQL两阶段提交 29 July 2015 参数介绍 两阶段提交 什么情况下会出现binlog写入了,但是实际这条数据不存在库中? 参数介绍 innod ...
- c++ 中的符号与关键字
符号按照符号的ASC码数值从小到达排列,关键字按照英文字母排序. & [38] 位运算:取地址:左值引用[指针.引用都是可以做类型转换的] #include <iostream> ...
- [SoapUI] Command-Line Arguments
https://support.smartbear.com/readyapi/docs/soapui/running/automating/cli.html Use the test runner t ...
- easyui datagrid 分页 客户分页
1.写好json 数据 { "total":21, ...