Spark 源码分析 -- task实际执行过程

Spark源码分析 – SparkContext 中的例子, 只分析到sc.runJob

那么最终是怎么执行的? 通过DAGScheduler切分成Stage, 封装成taskset, 提交给TaskScheduler, 然后等待调度, 最终到Executor上执行

val sc = new SparkContext(……)

val textFile = sc.textFile("README.md")

textFile.filter(line => line.contains("Spark")).count()

这是一个比较简单的没有shuffle的例子, 看看在Executor上是如何被执行的

首先这个job只有一个stage, 所以只会产生resultTask

最关键的执行语句,

func(context, rdd.iterator(split, context))

对于这个例子, func就是最终产生结果的count(), 而rdd就是count前最后一个rdd, 即filter产生的rdd

可以看到Spark中rdd的执行, 不是从前往后, 而是从后往前推的, 为什么? 因为需要考虑cache和checkpoint

所以对于stage只会保留最后一个rdd, 其他的rdd通过dep去反推, 这里调用rdd.iterator来读取最后一个rdd

我可以说iterator是spark中最为核心的一个function吗:-)

  final def iterator(split: Partition, context: TaskContext): Iterator[T] = {

    if (storageLevel != StorageLevel.NONE) {

      SparkEnv.get.cacheManager.getOrCompute(this, split, context, storageLevel)

    } else {

      computeOrReadCheckpoint(split, context)

    }

  }

如果结果被cache在memory或disk中, 则调用cacheManager.getOrCompute来读取, 否则直接从checkpoint读或compute

通过CacheManager来完成从cache中读取数据, 或重新compute数据并且完成cache的过程

private[spark] class CacheManager(blockManager: BlockManager) extends Logging {

  private val loading = new HashSet[String]

  /** Gets or computes an RDD split. Used by RDD.iterator() when an RDD is cached. */

  def getOrCompute[T](rdd: RDD[T], split: Partition, context: TaskContext, storageLevel: StorageLevel)

      : Iterator[T] = {

    val key = "rdd_%d_%d".format(rdd.id, split.index)

    blockManager.get(key) match {  // 从blockManager中获取cached值

      case Some(cachedValues) =>  // 从blockManager读到数据, 说明之前cache过, 直接返回即可

        // Partition is in cache, so just return its values

        return cachedValues.asInstanceOf[Iterator[T]]

      case None => // 没有读到数据说明没有cache过,需要重新load(compute或读cp)

        // Mark the split as loading (unless someone else marks it first)

        loading.synchronized { // 防止多次load相同的rdd, 加锁

          if (loading.contains(key)) {

            while (loading.contains(key)) {

              try {loading.wait()} catch {case _ : Throwable =>} // 如果已经在loading, 只需要wait

            }

            // See whether someone else has successfully loaded it. The main way this would fail

            // is for the RDD-level cache eviction policy if someone else has loaded the same RDD

            // partition but we didn't want to make space for it. However, that case is unlikely

            // because it's unlikely that two threads would work on the same RDD partition. One

            // downside of the current code is that threads wait serially if this does happen.

            blockManager.get(key) match {

              case Some(values) =>

                return values.asInstanceOf[Iterator[T]]

              case None =>

                logInfo("Whoever was loading " + key + " failed; we'll try it ourselves")

                loading.add(key)

            }

          } else {

            loading.add(key) // 记录当前key, 开始loading

          }

        }

        try {

          // If we got here, we have to load the split

          logInfo("Computing partition " + split)  // loading的过程,就是读cp或重新compute

          val computedValues = rdd.computeOrReadCheckpoint(split, context) // compute的结果是iterator, 何处遍历产生真实数据?

          // Persist the result, so long as the task is not running locally

          if (context.runningLocally) { return computedValues }

          val elements = new ArrayBuffer[Any]

          elements ++= computedValues  // ++会触发iterator的遍历产生data放到elements中

          blockManager.put(key, elements, storageLevel, true) // 对新产生的数据经行cache, 调用blockManager.put

          return elements.iterator.asInstanceOf[Iterator[T]]

        } finally {

          loading.synchronized {

            loading.remove(key)

            loading.notifyAll()

          }

        }

    }

  }

}

Task执行的结果, 如何传到DAGScheduler

task执行的结果value, 参考Spark 源码分析 -- Task

对于ResultTask是计算的值,比如count值,

对于ShuffleTask为MapStatus(blockManager.blockManagerId, compressedSizes), 其中compressedSizes所有shuffle buckets写到文件中的data size

//TaskRunner

val value = task.run(taskId.toInt)

val result = new TaskResult(value, accumUpdates, task.metrics.getOrElse(null))

context.statusUpdate(taskId, TaskState.FINISHED, serializedResult)  //context,StandaloneExecutorBackend

//StandaloneExecutorBackend.statusUpdate

driver ! StatusUpdate(executorId, taskId, state, data)

//DriverActor.StatusUpdate

scheduler.statusUpdate(taskId, state, data.value)

//ClusterScheduler.statusUpdate

var taskSetToUpdate: Option[TaskSetManager] = None

taskSetToUpdate.get.statusUpdate(tid, state, serializedData)

//ClusterTaskSetManager.statusUpdate

case TaskState.FINISHED =>

  taskFinished(tid, state, serializedData)

//ClusterTaskSetManager.taskFinished

val result = ser.deserialize[TaskResult[_]](serializedData)

result.metrics.resultSize = serializedData.limit()

sched.listener.taskEnded(tasks(index), Success, result.value, result.accumUpdates, info, result.metrics)

  //tasks = taskSet.tasks

  //info为TaskInfo

  class TaskInfo(

    val taskId: Long,

    val index: Int,

    val launchTime: Long,

    val executorId: String,

    val host: String,

    val taskLocality: TaskLocality.TaskLocality) 

//DAGScheduler.taskEnded

  override def taskEnded(

      task: Task[_],

      reason: TaskEndReason,

      result: Any,

      accumUpdates: Map[Long, Any],

      taskInfo: TaskInfo,

      taskMetrics: TaskMetrics) {

    eventQueue.put(CompletionEvent(task, reason, result, accumUpdates, taskInfo, taskMetrics))

  }

//DAGScheduler.processEvent

handleTaskCompletion(completion)

//DAGScheduler.handleTaskCompletion

......

Spark 源码分析 -- task实际执行过程的更多相关文章

MyBatis 源码分析 - SQL 的执行过程
* 本文速览本篇文章较为详细的介绍了 MyBatis 执行 SQL 的过程.该过程本身比较复杂,牵涉到的技术点比较多.包括但不限于 Mapper 接口代理类的生成.接口方法的解析.SQL 语句的解析 ...
Spark源码分析之Checkpoint的过程
概述 checkpoint 的机制保证了需要访问重复数据的应用 Spark 的DAG执行图可能很庞大,task 中计算链可能会很长,这时如果 task 中途运行出错,那么 task 的整个需要重算非常 ...
Spark 源码分析 -- Task
Task是介于DAGScheduler和TaskScheduler中间的接口在DAGScheduler, 需要把DAG中的每个stage的每个partitions封装成task 最终把taskset ...
通过前端控制器源码分析springmvc的执行过程
第一步:前端控制器接收请求调用doDiapatch 第二步:前端控制器调用处理器映射器查找 Handler 第三步:调用处理器适配器执行Handler,得到执行结果ModelAndView 第四步:视 ...
Spark源码分析 – 汇总索引
http://jerryshao.me/categories.html#architecture-ref http://blog.csdn.net/pelick/article/details/172 ...
Spark源码分析 – DAGScheduler
DAGScheduler的架构其实非常简单, 1. eventQueue, 所有需要DAGScheduler处理的事情都需要往eventQueue中发送event 2. eventLoop Threa ...
MyBatis 源码分析 - 映射文件解析过程
1.简介在上一篇文章中,我详细分析了 MyBatis 配置文件的解析过程.由于上一篇文章的篇幅比较大,加之映射文件解析过程也比较复杂的原因.所以我将映射文件解析过程的分析内容从上一篇文章中抽取出来, ...
spark 源码分析之二十一 -- Task的执行流程
引言在上两篇文章 spark 源码分析之十九 -- DAG的生成和Stage的划分和 spark 源码分析之二十 -- Stage的提交中剖析了Spark的DAG的生成,Stage的划分以及St ...
Spark源码分析之八：Task运行（二）
在<Spark源码分析之七:Task运行(一)>一文中,我们详细叙述了Task运行的整体流程,最终Task被传输到Executor上,启动一个对应的TaskRunner线程,并且在线程池中 ...

随机推荐

Android Bitmap和Canvas学习笔记
位图是我们开发中最常用的资源,毕竟一个漂亮的界面对用户是最有吸引力的. 1. 从资源中获取位图可以使用BitmapDrawable或者BitmapFactory来获取资源中的位图. 当然,首先需要获 ...
javascript的单线程
1.什么是javascript的单线程javascript是单线程的语言,所以在一个进程上,只能运行一个县城,不能多个线程同时运行.也就是说javascript不允许多个线程共享内存空间.如果多个线程 ...
Java连接postgresql数据库
1.下载驱动jar下载地址:https://jdbc.postgresql.org/download.html 2.导入jar包新建lib文件夹,将下载的jar驱动包拖到文件夹中.将jar驱动包添加到 ...
yii2中的事件和行为
Event 事件事件是为了解耦... 注册事件使用"on add"添加属性,注册事件使用on方法注册事件. 第三个参数$data是监听函数使用的参数, 第四个$append参 ...
Ubuntu/Debian下编译PC版的ffmpeg
1.安装git: 在命令行下执行 sudo apt-get install git-core 2.下载最新版本的ffmpeg: git clone git://source.ffmpeg.org/ff ...
词法分析器总结--flex&bison
转自:项目总结之词法分析器无论是词法分析,还是语法分析,给我的第一感觉就是逻辑要严谨.由于项目有自己一套完整的语言和语法,设计好其对应的词法分析器和语法分析器显得尤为重要. 我们采用flex进行词法 ...
form之action的绝对路径与相对路径
1.当你的form要提交到你自己的站点之外的URL的时候,就采取绝对路径: <form action="http://www.xxx.yyy:zzzz/mmm/nn/kkk.jsp&q ...
java 清除 bom
参考工具 http://akini.mbnet.fi/java/unicodereader/ Utf8BomRemover 清除bom的方法 package cn.com.do1.component ...
FreeRTOS 调试方法（printf---打印任务执行情况）
以下转载自安富莱电子: http://forum.armfly.com/forum.php 本章节为大家介绍 FreeRTOS 的调试方法,这里的调试方法主要是教会大家如何获取任务的执行情况,通过获取 ...
am335x usb host patch设计
USB直接作为host时省掉一个5V的DCDC,直接连接到5V的输入上面.对于Linux SDK,需要一个patch去确保这个设计能够正常工作,patch内容请参考: static struct om ...

Spark 源码分析 -- task实际执行过程

Task执行的结果, 如何传到DAGScheduler

Spark 源码分析 -- task实际执行过程的更多相关文章

随机推荐

热门专题