Spark源码分析 -- TaskScheduler

Spark在设计上将DAGScheduler和TaskScheduler完全解耦合, 所以在资源管理和task调度上可以有更多的方案

现在支持, LocalSheduler, ClusterScheduler, MesosScheduler, YarnClusterScheduler

先分析ClusterScheduler, 即standalone的Spark集群上, 因为比较单纯不涉及其他的系统, 看看Spark的任务是如何被执行的

  private var taskScheduler: TaskScheduler = {

      case SPARK_REGEX(sparkUrl) =>

        val scheduler = new ClusterScheduler(this)  // 创建ClusterScheduler

        val backend = new SparkDeploySchedulerBackend(scheduler, this, sparkUrl, appName) // 创建SparkDeploySchedulerBackend

        scheduler.initialize(backend)

        scheduler

  }

TaskScheduler接口, 注释写的非常清楚

/**

 * Low-level task scheduler interface, implemented by both ClusterScheduler and LocalScheduler.

 * These schedulers get sets of tasks submitted to them from the DAGScheduler for each stage,

 * and are responsible for sending the tasks to the cluster, running them, retrying if there

 * are failures, and mitigating stragglers. They return events to the DAGScheduler through

 * the TaskSchedulerListener interface.

 */

private[spark] trait TaskScheduler {

  def rootPool: Pool

  def schedulingMode: SchedulingMode

  def start(): Unit // 启动

  def postStartHook() { }

  def stop(): Unit

  // Submit a sequence of tasks to run.

  def submitTasks(taskSet: TaskSet): Unit // 核心, 提交taskset的接口

  // Set a listener for upcalls. This is guaranteed to be set before submitTasks is called.

  def setListener(listener: TaskSchedulerListener): Unit // TaskScheduler会使用这个listener来汇报当前task的运行状况,会注册DAGScheduler

  // Get the default level of parallelism to use in the cluster, as a hint for sizing jobs.

  def defaultParallelism(): Int

}

ClusterScheduler

对于集群的TaskScheduler实现, 相对于LocalScheduler

主要就是创建和管理schedulable tree, 参考Spark源码分析 – SchedulableBuilder

当然最终和cluster的executor通信还是需要依赖SparkDeploySchedulerBackend, 参考Spark源码分析 – SchedulerBackend

对于submitTasks,

首先将tasksetmanager放入schedulable tree等待schedule (delay schedule, 不一定会马上被调度到)

然后给SchedulerBackend发送reviveOffers event, 请求分配资源并launch tasks (launch的并一定是刚提交的tasks)

SchedulerBackend会向cluster申请workOffers(对于standalonebackend, 这步省略了), 然后再调用ClusterScheduler.resourceOffers来根据可用的workOffers分配tasks

最终给executors发送LaunchTask, 启动tasks

resourceOffers是核心函数, 当得到可用的workerOffer后, 用于从schedulable tree中schedule合适的被执行的tasks

resourceOffers的逻辑有点小复杂

1. 首先依次遍历sortedTaskSets, 并对于每个Taskset, 遍历TaskLocality

2. 越local越优先, 找不到(launchedTask为false)才会到下个locality级别

3. 在多次遍历offer list, 因为一次taskSet.resourceOffer只会占用一个core, 而不是一次用光所有的core, 这样有助于一个taskset中的task比较均匀的分布在workers上

4. 只有在该taskset, 该locality下, 对所有worker offer都找不到合适的task时, 才跳到下个locality级别

private[spark] class ClusterScheduler(val sc: SparkContext) extends TaskScheduler with Logging

{

  var listener: TaskSchedulerListener = null

  var backend: SchedulerBackend = null

  val mapOutputTracker = SparkEnv.get.mapOutputTracker

  var schedulableBuilder: SchedulableBuilder = null

  var rootPool: Pool = null

  // default scheduler is FIFO

  val schedulingMode: SchedulingMode = SchedulingMode.withName(

    System.getProperty("spark.scheduler.mode", "FIFO"))

  def initialize(context: SchedulerBackend) {

    backend = context    // 初始化SchedulerBackend

    // temporarily set rootPool name to empty

    rootPool = new Pool("", schedulingMode, 0, 0) // 创建Schedulable tree的root pool

    schedulableBuilder = { // 用schedulableBuilder初始化Schedulable tree

      schedulingMode match {

        case SchedulingMode.FIFO =>

          new FIFOSchedulableBuilder(rootPool)

        case SchedulingMode.FAIR =>

          new FairSchedulableBuilder(rootPool)

      }

    }

    schedulableBuilder.buildPools()

  }

  override def start() {

    backend.start() // 启动SchedulerBackend

  }

  override def submitTasks(taskSet: TaskSet) {

    val tasks = taskSet.tasks

    logInfo("Adding task set " + taskSet.id + " with " + tasks.length + " tasks")

    this.synchronized {

      val manager = new ClusterTaskSetManager(this, taskSet)

      activeTaskSets(taskSet.id) = manager

      schedulableBuilder.addTaskSetManager(manager, manager.taskSet.properties) // 将TaskSetManager加到Schedulable tree等待被调度执行

      taskSetTaskIds(taskSet.id) = new util.HashSet[Long]()

      backend.reviveOffers() // 调用SchedulerBackend的reviveOffers, 其实就是往DriverActor发送reviveOffers事件

  }

  /**

   * Called by cluster manager to offer resources on slaves. We respond by asking our active task

   * sets for tasks in order of priority. We fill each node with tasks in a round-robin manner so

   * that tasks are balanced across the cluster.

   */

  // 根据当前可用的worker offers, 分配tasks

  def resourceOffers(offers: Seq[WorkerOffer]): Seq[Seq[TaskDescription]] = synchronized {

    SparkEnv.set(sc.env)

    // Build a list of tasks to assign to each worker

    val tasks = offers.map(o => new ArrayBuffer[TaskDescription](o.cores)) // 每个core可以分配一个task,所以对每个offer生成length为cores数目的ArrayBuffer

    val availableCpus = offers.map(o => o.cores).toArray  // 每个work可用的core数目的array

    val sortedTaskSets = rootPool.getSortedTaskSetQueue() // 得到根据schedule算法排序后的TaskSetManager列表

    // Take each TaskSet in our scheduling order, and then offer it each node in increasing order

    // of locality levels so that it gets a chance to launch local tasks on all of them.

    var launchedTask = false

    for (taskSet <- sortedTaskSets; maxLocality <- TaskLocality.values) { // 嵌套, 遍历sortedTaskSets, 并对每个taskSet遍历所有TaskLocality

      do {

        launchedTask = false

        for (i <- 0 until offers.size) { // 遍历每个offer, 试图在当前的taskset和当前的locality上找到合适的task

          val execId = offers(i).executorId

          val host = offers(i).host

          for (task <- taskSet.resourceOffer(execId, host, availableCpus(i), maxLocality)) { // 每次只会返回最多一个task

            tasks(i) += task

            val tid = task.taskId

            taskIdToTaskSetId(tid) = taskSet.taskSet.id

            taskSetTaskIds(taskSet.taskSet.id) += tid

            taskIdToExecutorId(tid) = execId

            activeExecutorIds += execId

            executorsByHost(host) += execId

            availableCpus(i) –= 1 // 分配一个task, 所以availableCpus - 1

            launchedTask = true

          }

        }

      } while (launchedTask) // 找到,就继续在这个locality上找task, 否则放宽到下个locality,或下个taskset

    }

    if (tasks.size > 0) {

      hasLaunchedTask = true

    }

    return tasks

  }

Spark源码分析 -- TaskScheduler的更多相关文章

Spark源码分析 – 汇总索引
http://jerryshao.me/categories.html#architecture-ref http://blog.csdn.net/pelick/article/details/172 ...
Spark源码分析（三）-TaskScheduler创建
原创文章,转载请注明: 转载自http://www.cnblogs.com/tovin/p/3879151.html 在SparkContext创建过程中会调用createTaskScheduler函 ...
spark 源码分析之四 -- TaskScheduler的创建和启动过程
在 spark 源码分析之二 -- SparkContext 的初始化过程中,第 14 步和 16 步分别描述了 TaskScheduler的初始化和启动过程. 话分两头,先说 TaskSc ...
Spark源码分析：多种部署方式之间的区别与联系（转）
原文链接:Spark源码分析:多种部署方式之间的区别与联系(1) 从官方的文档我们可以知道,Spark的部署方式有很多种:local.Standalone.Mesos.YARN.....不同部署方式的 ...
Spark 源码分析 -- task实际执行过程
Spark源码分析 – SparkContext 中的例子, 只分析到sc.runJob 那么最终是怎么执行的? 通过DAGScheduler切分成Stage, 封装成taskset, 提交给Task ...
Spark源码分析 – SchedulerBackend
SchedulerBackend, 两个任务, 申请资源和task执行和管理对于SparkDeploySchedulerBackend, 基于actor模式, 主要就是启动和管理两个actor De ...
Spark源码分析 – DAGScheduler
DAGScheduler的架构其实非常简单, 1. eventQueue, 所有需要DAGScheduler处理的事情都需要往eventQueue中发送event 2. eventLoop Threa ...
Spark源码分析 – SparkContext
Spark源码分析之-scheduler模块这位写的非常好, 让我对Spark的源码分析, 变的轻松了许多这里自己再梳理一遍先看一个简单的spark操作, val sc = new SparkC ...
Spark源码分析之七：Task运行（一）
在Task调度相关的两篇文章<Spark源码分析之五:Task调度(一)>与<Spark源码分析之六:Task调度(二)>中,我们大致了解了Task调度相关的主要逻辑,并且在T ...

随机推荐

web压力测试指标
1.TPS每秒钟完成的web请求响应数量TPS=并发数/响应时间TPS是衡量系统性能的重要指标 2.并发数时间段内,系统同时处理的web请求响应数量 3.响应时间所有web请求处理完毕的时间 4.吞吐 ...
OpenLDAP　使用记录
导出数据: slapcat -l export.ldif
JS学习笔记（3）--json格式数据的添加，删除及排序方法
这篇文章主要介绍了json格式数据的添加,删除及排序方法,结合实例形式分析了针对一维数组与二维数组的json格式数据进行增加.删除与排序的实现技巧,需要的朋友可以参考下本文实例讲述了json格式 ...
socket相关函数中断后重试
慢系统调用accept,read,write被信号中断时应该重试.对于accept,如果errno为ECONNABORTED,也应该重试. connect虽然也会阻塞,但被信号中断时不能立即重试,该s ...
面向对象设计原则三：里氏替换原则（LSP）
里氏替换原则(LSP)定义:在任何父类出现的地方都可以用它的子类类替换,且不影响功能.解释说明:其实LSP是对开闭原则的一个扩展,在OO思想中,我们知道对象是由一系列的状态和行为组成的,里氏替换原则说 ...
contract
<%@ page language="java" import="java.util.*" pageEncoding="UTF-8"% ...
【NOIP模拟题】Permutation（dp+高精度）
首先我们可以这样想: 设状态f[i, j]表示1-i序列有j个'<'的方案数那么考虑转移因为i比i-1大,所以可以考虑从i-1来转移.首先i是要插入1-i-1这个序列的,所以我们可以思考插入 ...
java基础知识总结8(数据库篇1)
一. Oracle的安装(windowXP.win7.Linux)和卸载 1.1 Oracle的安装 1.1.1 在WindowsXP.Win7下安装第一:解压win32_11gR2_databas ...
ThinkPHP项目笔记之数据库配置篇
对于配置文件,有几点说明 common:公共配置,也就是前台,后台,都可以调用的文件,具有普遍性前台/后台:就是针对前后台的配置文件,具有针对性. 如:(公共文件基本配置) <?php ret ...
iOS 基于OpenCV图像比较的常见方法
先列个大纲 1.模板匹配 2.直方图比较 3.感知哈希算法 4.特征点匹配

Spark源码分析 -- TaskScheduler

ClusterScheduler

Spark源码分析 -- TaskScheduler的更多相关文章

随机推荐

热门专题