Shuffle Map Task运算结果的处理

这个结果的处理，分为两部分，一个是在Executor端是如何直接处理Task的结果的；还有就是Driver端，如果在接到Task运行结束的消息时，如何对Shuffle Write的结果进行处理，从而在调度下游的Task时，下游的Task可以得到其需要的数据。

Executor端的处理

在解析BasicShuffle Writer时，我们知道ShuffleMap Task在Executor上运行时，最终会调用org.apache.spark.scheduler.ShuffleMapTask的runTask：

 override def runTask(context: TaskContext): MapStatus = {

   // 反序列化广播变量taskBinary得到RDD

   val ser = SparkEnv.get.closureSerializer.newInstance()

   val (rdd, dep) = ser.deserialize[(RDD[_], ShuffleDependency[_, _, _])](

     ByteBuffer.wrap(taskBinary.value),Thread.currentThread.getContextClassLoader)

//省略一些非核心代码

val manager =SparkEnv.get.shuffleManager //获得Shuffle Manager

    //获得Shuffle Writer

    writer= manager.getWriter[Any, Any](dep.shuffleHandle, partitionId, context)

//首先调用rdd .iterator，如果该RDD已经cache了或者checkpoint了，那么直接读取

//结果，否则开始计算计算的结果将调用Shuffle Writer写入本地文件系统

writer.write(rdd.iterator(partition,context).asInstanceOf[Iterator[_ <: Product2[Any, Any]]])

// 返回数据的元数据信息，包括location和size

returnwriter.stop(success = true).get

那么这个结果最终是如何处理的呢？特别是下游的Task如何获取这些Shuffle的数据呢？还要从Task是如何开始执行开始讲起。在Worker上接收Task执行命令的是org.apache.spark.executor.CoarseGrainedExecutorBackend。它在接收到LaunchTask的命令后，通过在Driver创建SparkContext时已经创建的org.apache.spark.executor.Executor的实例的launchTask，启动Task：

 def launchTask(

     context:ExecutorBackend, taskId: Long, taskName: String,serializedTask: ByteBuffer) {

   val tr = newTaskRunner(context, taskId, taskName, serializedTask)

  runningTasks.put(taskId, tr)

  threadPool.execute(tr) // 开始在executor中运行

  }

最终Task的执行是在org.apache.spark.executor.Executor.TaskRunner#run。

在Executor运行Task时，得到计算结果会存入org.apache.spark.scheduler.DirectTaskResult。

//开始执行Task，最终得到的是org.apache.spark.scheduler.ShuffleMapTask#runTask

//返回的org.apache.spark.scheduler.MapStatus

val value = task.run(taskId.toInt)

val resultSer = env.serializer.newInstance() //获得序列化工具

val valueBytes = resultSer.serialize(value) //序列化结果

//首先将结果直接放入org.apache.spark.scheduler.DirectTaskResult

val directResult = new DirectTaskResult(valueBytes,accumUpdates, task.metrics.orNull)

val ser = env.closureSerializer.newInstance()

val serializedDirectResult = ser.serialize(directResult)//序列化结果

val resultSize = serializedDirectResult.limit //序列化结果的大小

在将结果回传到Driver时，会根据结果的大小有不同的策略：

1) 如果结果大于1GB，那么直接丢弃这个结果。这个是Spark1.2中新加的策略。可以通过spark.driver.maxResultSize来进行设置。

2) 对于“较大”的结果，将其以taskid为key存入org.apache.spark.storage.BlockManager；如果结果不大，那么直接回传给Driver。那么如何判定这个阈值呢？

这里的回传是直接通过akka的消息传递机制。因此这个大小首先不能超过这个机制设置的消息的最大值。这个最大值是通过spark.akka.frameSize设置的，单位是MBytes，默认值是10MB。除此之外，还有200KB的预留空间。因此这个阈值就是conf.getInt("spark.akka.frameSize",10) * 1024 *1024 – 200*1024。

3) 其他的直接通过AKKA回传到Driver。

实现源码解析如下：

     val serializedResult = {

          if (maxResultSize > 0 &&resultSize > maxResultSize) {

// 如果结果的大小大于1GB，那么直接丢弃，

// 可以在spark.driver.maxResultSize设置

ser.serialize(newIndirectTaskResult[Any](TaskResultBlockId(taskId),

    resultSize))

          } else if (resultSize >=akkaFrameSize - AkkaUtils.reservedSizeBytes) {

// 如果不能通过AKKA的消息传递，那么放入BlockManager

// 等待调用者以网络的形式来获取。AKKA的消息的默认大小可以通过

//  spark.akka.frameSize来设置，默认10MB。

            val blockId =TaskResultBlockId(taskId)

            env.blockManager.putBytes(

              blockId, serializedDirectResult,StorageLevel.MEMORY_AND_DISK_SER)

            ser.serialize(newIndirectTaskResult[Any](blockId, resultSize))

          } else {

            //结果可以直接回传到Driver

            serializedDirectResult

          }

        }

        // 通过AKKA向Driver汇报本次Task的已经完成

        execBackend.statusUpdate(taskId,TaskState.FINISHED, serializedResult)

而execBackend是org.apache.spark.executor.ExecutorBackend的一个实例，它实际上是Executor与Driver通信的接口：

private[spark] trait ExecutorBackend {

  def statusUpdate(taskId:Long, state: TaskState, data: ByteBuffer)

}

TaskRunner会将Task执行的状态汇报给Driver（org.apache.spark.scheduler.cluster.CoarseGrainedSchedulerBackend.DriverActor）。而Driver会转给org.apache.spark.scheduler.TaskSchedulerImpl#statusUpdate。

Driver的处理

TaskRunner将Task的执行状态汇报给Driver后，Driver会转给org.apache.spark.scheduler.TaskSchedulerImpl#statusUpdate。而在这里不同的状态有不同的处理：

1) 如果类型是TaskState.FINISHED，那么调用org.apache.spark.scheduler.TaskResultGetter#enqueueSuccessfulTask进行处理。

2) 如果类型是TaskState.FAILED或者TaskState.KILLED或者TaskState.LOST，调用org.apache.spark.scheduler.TaskResultGetter#enqueueFailedTask进行处理。对于TaskState.LOST，还需要将其所在的Executor标记为failed,并且根据更新后的Executor重新调度。

enqueueSuccessfulTask的逻辑也比较简单，就是如果是IndirectTaskResult，那么需要通过blockid来获取结果：sparkEnv.blockManager.getRemoteBytes(blockId)；如果是DirectTaskResult，那么结果就无需远程获取了。然后调用

1) org.apache.spark.scheduler.TaskSchedulerImpl#handleSuccessfulTask

2) org.apache.spark.scheduler.TaskSetManager#handleSuccessfulTask

3) org.apache.spark.scheduler.DAGScheduler#taskEnded

4) org.apache.spark.scheduler.DAGScheduler#eventProcessActor

5) org.apache.spark.scheduler.DAGScheduler#handleTaskCompletion

进行处理。核心逻辑都在第5个调用栈。

如果task是ShuffleMapTask，那么它需要将结果通过某种机制告诉下游的Stage，以便于其可以作为下游Stage的输入。这个机制是怎么实现的？

实际上，对于ShuffleMapTask来说，其结果实际上是org.apache.spark.scheduler.MapStatus；其序列化后存入了DirectTaskResult或者IndirectTaskResult中。而DAGScheduler#handleTaskCompletion通过下面的方式来获取这个结果：

val status=event.result.asInstanceOf[MapStatus]

通过将这个status注册到org.apache.spark.MapOutputTrackerMaster，就完成了结果处理的漫长过程：

    mapOutputTracker.registerMapOutputs(

                 stage.shuffleDep.get.shuffleId,

                  stage.outputLocs.map(list=> if (list.isEmpty) null else list.head).toArray,

                  changeEpoch = true)

而registerMapOutputs的处理也很简单，以Shuffle ID为key将MapStatus的列表存入带有时间戳的HashMap：TimeStampedHashMap[Int, Array[MapStatus]]()。如果设置了cleanup的函数，那么这个HashMap会将超过一定时间（TTL，Time to Live）的数据清理掉。

如果您喜欢本文，那么请动一下手指支持以下博客之星的评比吧。非常感谢您的投票。每天可以一票哦。

点我投票

Spark技术内幕：Shuffle Map Task运算结果的处理的更多相关文章

Spark技术内幕: Shuffle详解（一）
通过上面一系列文章,我们知道在集群启动时,在Standalone模式下,Worker会向Master注册,使得Master可以感知进而管理整个集群:Master通过借助ZK,可以简单的实现HA:而应用 ...
Spark技术内幕: Shuffle详解（三）
前两篇文章写了Shuffle Read的一些实现细节.但是要想彻底理清楚这里边的实现逻辑,还是需要更多篇幅的:本篇开始,将按照Job的执行顺序,来讲解Shuffle.即,结果数据(ShuffleMap ...
Spark技术内幕: Shuffle详解（二）
本文主要关注ShuffledRDD的Shuffle Read是如何从其他的node上读取数据的. 上文讲到了获取如何获取的策略都在org.apache.spark.storage.BlockFetch ...
Spark技术内幕：Sort Based Shuffle实现解析
在Spark 1.2.0中,Spark Core的一个重要的升级就是将默认的Hash Based Shuffle换成了Sort Based Shuffle,即spark.shuffle.manager ...
Spark技术内幕: Task向Executor提交的源码解析
在上文<Spark技术内幕:Stage划分及提交源码分析>中,我们分析了Stage的生成和提交.但是Stage的提交,只是DAGScheduler完成了对DAG的划分,生成了一个计算拓扑, ...
Spark技术内幕: Task向Executor提交的源代码解析
在上文<Spark技术内幕:Stage划分及提交源代码分析>中,我们分析了Stage的生成和提交.可是Stage的提交,仅仅是DAGScheduler完毕了对DAG的划分,生成了一个计算拓 ...
Spark技术内幕：Shuffle的性能调优
通过上面的架构和源码实现的分析,不难得出Shuffle是Spark Core比较复杂的模块的结论.它也是非常影响性能的操作之一.因此,在这里整理了会影响Shuffle性能的各项配置.尽管大部分的配置项 ...
Spark技术内幕：Shuffle Pluggable框架详解，你怎么开发自己的Shuffle Service？
首先介绍一下需要实现的接口.框架的类图如图所示(今天CSDN抽风,竟然上传不了图片.如果需要实现新的Shuffle机制,那么需要实现这些接口. 1.1.1 org.apache.spark.shuf ...
Spark技术内幕：Stage划分及提交源码分析
http://blog.csdn.net/anzhsoft/article/details/39859463 当触发一个RDD的action后,以count为例,调用关系如下: org.apache. ...

随机推荐

ASP.NET Core 如何在运行Docker容器时指定容器外部端口
前面我写了一系列关于持续集成的文章,最终构建出来的镜像运行之后,应该会发现每次构建运行之后端口都变了,这对于我们来说是十分不方便的,所以我们可以通过修改docker compose的配置文件来完成我们 ...
[Other] Nuget 构建服务器与常用命令
公司出于某些原因需要自己在内部网络搭建一个私有的 Nuget 服务器,而且要运行在 Linux服务器上面.如果说 Windows 下搭建的话很简单,直接在项目当中引入 Nuget 的库就 OK,这儿的 ...
[LeetCode] Prefix and Suffix Search 前后缀搜索
Given many words, words[i] has weight i. Design a class WordFilter that supports one function, WordF ...
[LeetCode] Minimum Factorization 最小因数分解
Given a positive integer a, find the smallest positive integer b whose multiplication of each digit ...
Java入门之JDK的安装和环境变量的配置
Java的版本 1. Java SEjava se 以前称为J2SE.它允许开发和部署在桌面.服务器.嵌入式环境和实时环境中使用的 Java 应用程序.Java SE是基础包,但是也包含了支持 Jav ...
在iview的Table中添加Select（render）
首先对Render进行分析,在iview官方的文档中,找到了table插入Button的例子: { title: 'Action', key: 'action', width: 150, align: ...
[HNOI 2005]狡猾的商人
Description 刁姹接到一个任务,为税务部门调查一位商人的账本,看看账本是不是伪造的.账本上记录了n个月以来的收入情况,其中第i 个月的收入额为Ai(i=1,2,3...n-1,n), .当 ...
[SCOI 2010]字符串
Description lxhgww最近接到了一个生成字符串的任务,任务需要他把n个1和m个0组成字符串,但是任务还要求在组成的字符串中,在任意的前k个字符中,1的个数不能少于0的个数.现在lxhgw ...
[SDOI2006]仓库管理员的烦恼
题目描述仓库管理员M最近一直很烦恼,因为他的上司给了他一个艰难的任务:让他尽快想出一种合理的方案,把公司的仓库整理好. 已知公司共有n个仓库和n种货物,由于公司进货时没能很好的归好类,使得大部分的仓 ...
UVA - 11992：Fast Matrix Operations
线段树,注意tag优先级 #include<cstdio> #include<cstdlib> #include<algorithm> #include<cs ...

Spark技术内幕：Shuffle Map Task运算结果的处理

Shuffle Map Task运算结果的处理

Executor端的处理

Driver的处理

Spark技术内幕：Shuffle Map Task运算结果的处理的更多相关文章

随机推荐

热门专题