Spark技术内幕: Shuffle详解（三）

前两篇文章写了Shuffle Read的一些实现细节。但是要想彻底理清楚这里边的实现逻辑，还是需要更多篇幅的；本篇开始，将按照Job的执行顺序，来讲解Shuffle。即，结果数据（ShuffleMapTask的结果和ResultTask的结果）是如何产生的；结果是如何处理的；结果是如何读取的。

在Worker上接收Task执行命令的是org.apache.spark.executor.CoarseGrainedExecutorBackend。它在接收到LaunchTask的命令后，通过在Driver创建SparkContext时已经创建的org.apache.spark.executor.Executor的实例的launchTask，启动Task：

  deflaunchTask(

     context: ExecutorBackend, taskId: Long, taskName: String,serializedTask: ByteBuffer) {

   val tr = new TaskRunner(context, taskId, taskName, serializedTask)

   runningTasks.put(taskId, tr)

   threadPool.execute(tr) // 开始在executor中运行

  }

最终Task的执行是在org.apache.spark.executor.Executor.TaskRunner#run。org.apache.spark.executor.ExecutorBackend是Executor与Driver通信的接口，它实际上是一个trait：

private[spark] trait ExecutorBackend {

  defstatusUpdate(taskId: Long, state: TaskState, data: ByteBuffer)

}

TaskRunner会将Task执行的状态汇报给Driver（org.apache.spark.scheduler.cluster.CoarseGrainedSchedulerBackend.DriverActor）。而Driver会转给org.apache.spark.scheduler.TaskSchedulerImpl#statusUpdate。

在Executor运行Task时，得到计算结果会存入org.apache.spark.scheduler.DirectTaskResult。在将结果回传到Driver时，会根据结果的大小有不同的策略：对于“较大”的结果，将其以taskid为key存入org.apache.spark.storage.BlockManager；如果结果不大，那么直接回传给Driver。那么如何判定这个阈值呢？

这里的回传是直接通过akka的消息传递机制。因此这个大小首先不能超过这个机制设置的消息的最大值。这个最大值是通过spark.akka.frameSize设置的，单位是Bytes，默认值是10MB。除此之外，还有200KB的预留空间。因此这个阈值就是conf.getInt("spark.akka.frameSize", 10) * 1024 *1024 – 200KB。

       // directSend = sending directly back to the driver

       val (serializedResult, directSend) = {

         if (resultSize >=akkaFrameSize - AkkaUtils.reservedSizeBytes) { //如果结果太大，那么存入BlockManager

           val blockId = TaskResultBlockId(taskId)

           env.blockManager.putBytes(

              blockId, serializedDirectResult,StorageLevel.MEMORY_AND_DISK_SER)

           (ser.serialize(new IndirectTaskResult[Any](blockId)), false)

         } else { // 如果大小合适，则直接发送结果给Driver

           (serializedDirectResult, true)

         }

       }

       execBackend.statusUpdate(taskId, TaskState.FINISHED, serializedResult)

TaskRunner将Task的执行状态汇报给Driver后，Driver会转给org.apache.spark.scheduler.TaskSchedulerImpl#statusUpdate。而在这里不同的状态有不同的处理：

1. 如果类型是TaskState.FINISHED，那么调用org.apache.spark.scheduler.TaskResultGetter#enqueueSuccessfulTask进行处理。

2. 如果类型是TaskState.FAILED或者TaskState.KILLED或者TaskState.LOST，调用org.apache.spark.scheduler.TaskResultGetter#enqueueFailedTask进行处理。对于TaskState.LOST，还需要将其所在的Executor标记为failed, 并且根据更新后的Executor重新调度。

enqueueSuccessfulTask的逻辑也比较简单，就是如果是IndirectTaskResult，那么需要通过blockid来获取结果：sparkEnv.blockManager.getRemoteBytes(blockId)；如果是DirectTaskResult，那么结果就无需远程获取了。然后调用

1. org.apache.spark.scheduler.TaskSchedulerImpl#handleSuccessfulTask

2. org.apache.spark.scheduler.TaskSetManager#handleSuccessfulTask

3. org.apache.spark.scheduler.DAGScheduler#taskEnded

4. org.apache.spark.scheduler.DAGScheduler#eventProcessActor

5. org.apache.spark.scheduler.DAGScheduler#handleTaskCompletion

进行处理。核心逻辑都在第5个调用栈。如果task是ResultTask，处理逻辑比较简单，停止job，更新一些状态，发送一些event即可。

    if (!job.finished(rt.outputId)){

        job.finished(rt.outputId) =true

        job.numFinished += 1

        // If the whole job hasfinished, remove it

        if (job.numFinished ==job.numPartitions) {

          markStageAsFinished(stage)

         cleanupStateForJobAndIndependentStages(job)

          listenerBus.post(SparkListenerJobEnd(job.jobId,JobSucceeded))

        }

        // taskSucceeded runs someuser code that might throw an exception.

        // Make sure we areresilient against that.

        try {

         job.listener.taskSucceeded(rt.outputId, event.result)

        } catch {

          case e: Exception =>

            // TODO: Perhaps we wantto mark the stage as failed?

           job.listener.jobFailed(new SparkDriverExecutionException(e))

        }

    }

如果task是ShuffleMapTask，那么它需要将结果通过某种机制告诉下游的Stage，以便于其可以作为下游Stage的输入。这个机制是怎么实现的？

实际上，对于ShuffleMapTask来说，其结果实际上是org.apache.spark.scheduler.MapStatus；其序列化后存入了DirectTaskResult或者IndirectTaskResult中。而DAGScheduler#handleTaskCompletion通过下面的方式来获取这个结果：

val status =event.result.asInstanceOf[MapStatus]

通过将这个status注册到org.apache.spark.MapOutputTrackerMaster，就实现了

    mapOutputTracker.registerMapOutputs(

                 stage.shuffleDep.get.shuffleId,

                  stage.outputLocs.map(list=> if (list.isEmpty) null else list.head).toArray,

                  changeEpoch = true)

Spark技术内幕: Shuffle详解（三）的更多相关文章

Spark技术内幕: Shuffle详解（一）
通过上面一系列文章,我们知道在集群启动时,在Standalone模式下,Worker会向Master注册,使得Master可以感知进而管理整个集群:Master通过借助ZK,可以简单的实现HA:而应用 ...
Spark技术内幕: Shuffle详解（二）
本文主要关注ShuffledRDD的Shuffle Read是如何从其他的node上读取数据的. 上文讲到了获取如何获取的策略都在org.apache.spark.storage.BlockFetch ...
[Spark内核] 第36课：TaskScheduler内幕天机解密：Spark shell案例运行日志详解、TaskScheduler和SchedulerBackend、FIFO与FAIR、Task运行时本地性算法详解等
本課主題通过 Spark-shell 窥探程序运行时的状况 TaskScheduler 与 SchedulerBackend 之间的关系 FIFO 与 FAIR 两种调度模式彻底解密 Task 数据 ...
前端技术之_CSS详解第三天
前端技术之_CSS详解第三天二.权重问题深入 2.1 同一个标签,携带了多个类名,有冲突: <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 ...
Spark技术内幕：Stage划分及提交源码分析
http://blog.csdn.net/anzhsoft/article/details/39859463 当触发一个RDD的action后,以count为例,调用关系如下: org.apache. ...
前端技术之_CSS详解第一天
前端技术之_CSS详解第一天一html部分略.... 二.列表列表有3种 2.1 无序列表无序列表,用来表示一个列表的语义,并且每个项目和每个项目之间,是不分先后的. ul就是英语unorde ...
Spark技术内幕: Task向Executor提交的源码解析
在上文<Spark技术内幕:Stage划分及提交源码分析>中,我们分析了Stage的生成和提交.但是Stage的提交,只是DAGScheduler完成了对DAG的划分,生成了一个计算拓扑, ...
前端技术之_CSS详解第四天
前端技术之_CSS详解第四天一.第三天的小总结盒模型box model,什么是盒子? 所有的标签都是盒子.无论是div.span.a都是盒子.图片.表单元素一律看做文本. 盒模型有哪些组成: wi ...
前端技术之_CSS详解第五天
前端技术之_CSS详解第五天一.行高和字号 1.1 行高 CSS中,所有的行,都有行高.盒模型的padding,绝对不是直接作用在文字上的,而是作用在“行”上的. <!DOCTYPE html ...

随机推荐

[SCOI 2016]幸运数字
Description A 国共有 n 座城市,这些城市由 n-1 条道路相连,使得任意两座城市可以互达,且路径唯一.每座城市都有一个幸运数字,以纪念碑的形式矗立在这座城市的正中心,作为城市的象征.一 ...
【模板】KMP字符串匹配
题目描述如题,给出两个字符串s1和s2,其中s2为s1的子串,求出s2在s1中所有出现的位置. 为了减少骗分的情况,接下来还要输出子串的前缀数组next. (如果你不知道这是什么意思也不要问,去百度 ...
51nod 1514 美妙的序列
Description 长度为n的排列,且满足从中间任意位置划分为两个非空数列后,左边的最大值>右边的最小值.问这样的排列有多少个%998244353 题面 Solution 正难则反 \(f[ ...
【 lca倍增模板】
题目描述对于 n(<100000)个点 n-1 条掉权值的边,有 m 个询问,每条询问求两个结点之间的路径上边权的最小值输入第一行 n,表示结点个数,接下来 n-1 行,每行 a b w ...
FZU 2158
在密室逃脱游戏中,大家被困在一个密室中,为了逃出密室,需要找到正确的数字密码,于是大家分头行动,分别找到了密码的子序列,而后大家将得到的线索集中整理分析,大家想知道密码最少是多少位. Input 第 ...
.htaccess rewrite 规则详细说明
rewrite的语法格式: RewriteEngine On #要想rewrite起作用,必须要写上哦 RewriteBase url-path #设定基准目录,例如希望对根目录下的文件rewrtie ...
logback学习二
转载:https://www.cnblogs.com/DeepLearing/p/5663178.html 属性 : debug : 默认为false ,设置为true时,将打印出logback内部日 ...
前端性能优化之-dns预解析
预解析的实现: 1. 用meta信息来告知浏览器, 当前页面要做DNS预解析:<meta http-equiv="x-dns-prefetch-control" conten ...
c++指针函数的使用——回调函数
/* 函数指针函数也是有地址的所谓函数指针,就是指向函数的指针,函数指针也是一个变量,可以指向不同的函数.同时通过函数指针可以调用其指向函数,从而使函数的调用更加灵活. 函数指针的用途 */ #i ...
python笔记六（函数的参数、返回值）
一调用函数在写函数之前,我们先尝试调用现有的函数 >>> abs(-9) 9 除此之外,还有我们之前使用的len()等.可以用于数据类型转换的 int() float() str ...

Spark技术内幕: Shuffle详解（三）

Spark技术内幕: Shuffle详解（三）的更多相关文章

随机推荐

热门专题