spark 笔记 12: Executor，task最后的归宿

spark的Executor是执行task的容器。和java的executor概念类似。

===================start executor runs task============================

->CoarseGrainedExecutorBackend::receiveWithLogging --接收CoarseGrainedSchedulerBackend发来的消息

->case LaunchTask(data) => 处理启动task的消息

->val taskDesc = ser.deserialize[TaskDescription](data.value) --将受到的taskDescription反序列化

->executor.launchTask(this, taskDesc.taskId, taskDesc.name, taskDesc.serializedTask) --调用executor的launchTask方法

->Executor::launchTask( --Executor执行task的方法

->val tr = new TaskRunner(context, taskId, taskName, serializedTask) --创建一个新的task，这样可以放到新的线程中执行

->override def run() {

->val (taskFiles, taskJars, taskBytes) = Task.deserializeWithDependencies(serializedTask) --解析task字段

->updateDependencies(taskFiles, taskJars) //Download any missing dependencies if we receive a new set of files

//and JARs from theSparkContext. Also adds any new JARs we fetched to the class loader. 更新并补全依赖

->for ((name, timestamp) <- newFiles if currentFiles.getOrElse(name, -1L) < timestamp) --获取依赖文件

->Utils.fetchFile(name, new File(SparkFiles.getRootDirectory), conf, env.securityManager)

->for ((name, timestamp) <- newJars if currentJars.getOrElse(name, -1L) < timestamp) --获取依赖jar包

->Utils.fetchFile(name, new File(SparkFiles.getRootDirectory), conf, env.securityManager)

->val url = new File(SparkFiles.getRootDirectory, localName).toURI.toURL

->urlClassLoader.addURL(url)

->task = ser.deserialize[Task[Any]](taskBytes, Thread.currentThread.getContextClassLoader) --反序列化task

->val value = task.run(taskId.toInt) --直接调用task的run函数。

->val valueBytes = resultSer.serialize(value) --序列化任务结果

->val directResult = new DirectTaskResult(valueBytes, accumUpdates, task.metrics.orNull) 生成会送给的task结果

->val serializedDirectResult = ser.serialize(directResult) --序列化回送的结果

->execBackend.statusUpdate(taskId, TaskState.FINISHED, serializedResult) --回送结果

->driver ! StatusUpdate(executorId, taskId, state, data) --CoarseGrainedSchedulerBackend实现

->env.shuffleMemoryManager.releaseMemoryForThisThread() // Release memory used by this thread for shuffles

->env.blockManager.memoryStore.releaseUnrollMemoryForThisThread()// Release memory used by this thread for unrolling blocks

->runningTasks.remove(taskId)

->runningTasks.put(taskId, tr)

->threadPool.execute(tr)

===========================end======================

/**
 * Spark executor used with Mesos, YARN, and the standalone scheduler.
 */
private[spark] class Executor(
    executorId: String,
    slaveHostname: String,
    properties: Seq[(String, String)],
    isLocal: Boolean = false)
  extends Logging
{

重要属性：

// Maintains the list of running tasks.
private val runningTasks = new ConcurrentHashMap[Long, TaskRunner]

通过心跳发送任务状态到master

def startDriverHeartbeater() {

终于看到熟悉的executor了。这就是最终我们要执行的东西。

def launchTask(
    context: ExecutorBackend, taskId: Long, taskName: String, serializedTask: ByteBuffer) {
  val tr = new TaskRunner(context, taskId, taskName, serializedTask)
  runningTasks.put(taskId, tr)
  threadPool.execute(tr)
}

class TaskRunner(
    execBackend: ExecutorBackend, val taskId: Long, taskName: String, serializedTask: ByteBuffer)

CoarseGrainedExecutorBackend：是直接与master的CoarseGrainedSchedulerBackend类对位的，它们直接通信来实现任务的传递和结果回送功能。

private[spark] class CoarseGrainedExecutorBackend(
    driverUrl: String,
    executorId: String,
    hostPort: String,
    cores: Int,
    sparkProperties: Seq[(String, String)])
  extends Actor with ActorLogReceive with ExecutorBackend with Logging {

来自为知笔记(Wiz)

spark 笔记 12: Executor，task最后的归宿的更多相关文章

spark笔记环境配置
spark笔记 spark简介 saprk 有六个核心组件: SparkCore.SparkSQL.SparkStreaming.StructedStreaming.MLlib,Graphx Spar ...
Spark笔记——技术点汇总
目录概况手工搭建集群引言安装Scala 配置文件启动与测试应用部署部署架构应用程序部署核心原理 RDD概念 RDD核心组成 RDD依赖关系 DAG图 RDD故障恢复机制 Standa ...
Spark 源码分析 -- task实际执行过程
Spark源码分析 – SparkContext 中的例子, 只分析到sc.runJob 那么最终是怎么执行的? 通过DAGScheduler切分成Stage, 封装成taskset, 提交给Task ...
spark学习12（spark架构原理）
spark采用的是主从式的架构,主节点叫master,从节点是worker Driver 我们编写的spark就在Driver上,由driver进程执行. Driver是spark集群的节点之一,或你 ...
并发编程学习笔记(12)----Fork/Join框架
1. Fork/Join 的概念 Fork指的是将系统进程分成多个执行分支(线程),Join即是等待,当fork()方法创建了多个线程之后,需要等待这些分支执行完毕之后,才能得到最终的结果,因此joi ...
Spring源码学习笔记12——总结篇,IOC，Bean的生命周期，三大扩展点
Spring源码学习笔记12--总结篇,IOC,Bean的生命周期,三大扩展点参考了Spring 官网文档 https://docs.spring.io/spring-framework/docs/ ...
机器学习实战 - 读书笔记(12) - 使用FP-growth算法来高效发现频繁项集
前言最近在看Peter Harrington写的"机器学习实战",这是我的学习心得,这次是第12章 - 使用FP-growth算法来高效发现频繁项集. 基本概念 FP-growt ...
Ext.Net学习笔记12：Ext.Net GridPanel Filter用法
Ext.Net学习笔记12:Ext.Net GridPanel Filter用法 Ext.Net GridPanel的用法在上一篇中已经介绍过,这篇笔记讲介绍Filter的用法. Filter是用来过 ...
与众不同 windows phone (12) - Background Task（后台任务）之 PeriodicTask（周期任务）和 ResourceIntensiveTask（资源密集型任务）
原文:与众不同 windows phone (12) - Background Task(后台任务)之 PeriodicTask(周期任务)和 ResourceIntensiveTask(资源密集型任 ...

随机推荐

js特效背景--点线随着鼠标移动而改变
https://blog.csdn.net/css33/article/details/89450852 https://www.cnblogs.com/qq597585136/p/7019755.h ...
FastDFS整合Nginx的模块:fastdfs-nginx-module报错:fdfs_define.h:15:27: 致命错误：common_define.h：没有那个文件或目录
错误提示: /usr/include/fastdfs/fdfs_define.h:15:27: 致命错误:common_define.h:没有那个文件或目录 [解决办法] 1.编辑fastdfs-ng ...
2019.9.25使用BP和Hydra爆破相关的服务
使用BP和Hydra爆破相关的服务. Hydra:九头蛇,开源的功能强大的爆破工具,支持的服务有很多,使用hydra爆破c/s架构的服务.使用bp爆破web登录端口. dvwa:web应用程序漏洞演练 ...
PowerDesigner连接 MySQL 生成 ER图
powerdesigner 16.5 http://www.pcsoft.com.cn/soft/27495.html jdk 1.8 32位 https://mirrors.huaweicloud. ...
架构师成长之路5.5-Saltstack配置管理（状态间关系）
点击架构师成长之路架构师成长之路5.5-Saltstack配置管理(状态间关系) 配置管理工具: Pupper:1. 采用ruby编程语言:2. 安装环境相对较复杂:3.不支持远程执行,需要FUNC ...
牛客练习赛47 D DongDong坐飞机（分层最短路）
链接:https://ac.nowcoder.com/acm/contest/904/D 来源:牛客网 DongDong坐飞机时间限制:C/C++ 1秒,其他语言2秒空间限制:C/C++ 5242 ...
php中限制ip段访问、禁止ip提交表单的代码
在需要禁止访问或提交表单的页面添加下面的代码进行判断就可以了. 注意:下边只是一个PHP限制IP的实例代码,如果您打算应用到CMS中,请自行修改. <?php /加IP访问限制 if(geten ...
C#线程中LOCK的意义
学习心得,为的是让新人能理解,高手直接绕~ lock 确保当一个线程位于代码的临界区时,另一个线程不进入临界区.如果其他线程试图进入锁定的代码,则它将一直等待(即被阻止),直到该对象被释放. 引用一句 ...
filter和filter_by 的区别
H5 2次重定向301
测试环境http ,生产https,导致请求重定向.加之H5自己的一次请求重定向,一共2次.

spark 笔记 12: Executor，task最后的归宿

spark 笔记 12: Executor，task最后的归宿的更多相关文章

随机推荐

热门专题