Spark Task 概述

Task的执行流程：

1. Driver端中的 CoarseGrainSchedulerBackend 给 CoarseGrainExecutorBacken 发送 LaunchTask 消息

2. CoarseGrainExecutorBacken 在收到消息后，首先会反序列化 TaskDescription

3. Executor 通过 launchTask 来执行 Task

4. TaskRunner 用 ThreadPool 来运行具体的 Task。在 TaskRunner 的 run 方法中首先会调用 statusUpdate 给 Driver发消息汇报自己现在的状态是 Running 状态。

5. TaskRunner 内部会做一些准备工作，如反序列化 Task 的依赖。然后通过网络来获取依赖的文件、Jar 等

6. 反序列化 Task本身

7. 调用反序列化后的 Task.run 方法来执行任务并获得执行结果。run 方法内部会调用 runTask，这个方法内部会调用 RDD 的 iterator() 方法，iterator 方法就是我们针对当前 Task所对就的 Partition 进行计算的关键所在，会迭代 Partition 的数据并交给我们自定义的 function 进行处理。

对于 ShuffleMapTask，首先要对 RDD 以及其依赖关系进行反序列化。

8. 把执行结果序列化，并根据大小判断不同的结果传回给 Driver 的方式

9. CoarseGrainExecutorBackend 给 DriverEndpoint 发送 StatusUpdate来传输执行结果， DriverEndpoint 会把执行结果传递给 TaskSchedulerImpl 处理，针后交给 TaskResultGetter 内部通过线程去分别处理 Task 成功和失败时候的不同情况，然后告诉 DAGScheduler 任务处理结束的状况。

补充说明：在执行具体 Task 的业务逻辑前会进行四次反序列化：

1. TaskDescription 的反序列化

2. 反序列化 Task 的依赖

3. Task 的反序列化

4. RDD反序列化

Spark Task 概述的更多相关文章

大数据技术之_19_Spark学习_03_Spark SQL 应用解析 + Spark SQL 概述、解析、数据源、实战 + 执行 Spark SQL 查询 + JDBC/ODBC 服务器
第1章 Spark SQL 概述1.1 什么是 Spark SQL1.2 RDD vs DataFrames vs DataSet1.2.1 RDD1.2.2 DataFrame1.2.3 DataS ...
【原创】大叔问题定位分享（19）spark task在executors上分布不均
最近提交一个spark应用之后发现执行非常慢,点开spark web ui之后发现卡在一个job的一个stage上,这个stage有100000个task,但是绝大部分task都分配到两个execut ...
大数据技术之_19_Spark学习_04_Spark Streaming 应用解析 + Spark Streaming 概述、运行、解析 + DStream 的输入、转换、输出 + 优化
第1章 Spark Streaming 概述1.1 什么是 Spark Streaming1.2 为什么要学习 Spark Streaming1.3 Spark 与 Storm 的对比第2章运行 S ...
Hadoop MapReduce Task的进程模型与Spark Task的线程模型
Hadoop的MapReduce的Map Task和Reduce Task都是进程级别的:而Spark Task则是基于线程模型的. 多进程模型和多线程模型所谓的多进程模型和多线程模型,指的是同一个 ...
大数据技术之_19_Spark学习_05_Spark GraphX 应用解析 + Spark GraphX 概述、解析 + 计算模式 + Pregel API + 图算法参考代码 + PageRank 实例
第1章 Spark GraphX 概述1.1 什么是 Spark GraphX1.2 弹性分布式属性图1.3 运行图计算程序第2章 Spark GraphX 解析2.1 存储模式2.1.1 图存储模式 ...
Spark SQL概念学习系列之Spark SQL概述
很多人一个误区,Spark SQL重点不是在SQL啊,而是在结构化数据处理! Spark SQL结构化数据处理概要: 01 Spark SQL概述 02 Spark SQL基本原理 03 Spark ...
第1章 Spark SQL概述
第1章 Spark SQL概述 1.1 什么是Spark SQL Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作 ...
Kafka Topic ISR不全，个别Spark task处理时间长
现象 Spark streaming读kafka数据做业务处理时,同一个stage的task,有个别task的运行时间比多数task时间都长,造成业务延迟增大. 查看业务对应的topic发现当topi ...
Spark环境搭建（五）-----------Spark生态圈概述与Hadoop对比
Spark:快速的通用的分布式计算框架概述和特点: 1) Speed,(开发和执行)速度快.基于内存的计算:DAG(有向无环图)的计算引擎:基于线程模型: 2)Easy of use,易用 . 多语 ...

随机推荐

Delphi 读取 c# webservice XML的base64编码图片字符串转化图片并显示
Delphi 读取 c# webservice XML的base64编码图片字符串转化图片并显示在开发中遇到应用c#及asp.net的在的webservice 保存图片并以xml文件形式现实出来 ...
C++ STL中Map的按Key排序跟按Value排序
C++ STL中Map的按Key排序和按Value排序 map是用来存放<key, value>键值对的数据结构,可以很方便快速的根据key查到相应的value.假如存储学生和其成绩(假定 ...
define的用法与注意事项
------------------------------------------------- 在编程使用宏替换时,当字符串中不只一个符号时,加上括号表现出优先级, 如果是带参数的宏定义,则要给宏 ...
java后端书单
Java开发工程师一般负责后端开发,当然也有专门做Java Web的工程师,但是随着前后端的分离,越来越多的Java工程师需要往大后端方向发展. 今天我们就来介绍一下Java后端开发者的书单. 首先要 ...
Python中如何开发一个注册接口小实例
import flask from flask import request #想获取到请求参数的话,就得用这个 server = flask.Flask(__name__) #吧这个python文件 ...
json-lib的一些过滤操作
package demo4; import java.io.Serializable; import net.sf.json.JSONString; public class User impleme ...
javascript-JQuery样式篇（一）
轻量级的JavaScript库,核心依然是JavaScript,不仅兼容了CSS3,还兼容了各种浏览器强大的选择器,完善的事件机制,出色的Ajax封装,丰富的UI 进入官方网站获取最新的版本 htt ...
javaScript-进阶篇(二)
JavaScript的内置对象 JavaScript 中的所有事物都是对象,如:字符串.数值.数组.函数等,每个对象带有属性和方法对象的属性:反映该对象某些特定的性质的,如:字符串的长度.图像的长宽 ...
MFC工程名称与所包含文件名称的关系（工程名可以更改，输出的.dll.exe.lib都以最后工程名命名为准）
创建MFC应用程序时,可以规定MFC程序的工程名称,假设初始为MFCApp,则此后该应用程序的资源文件名称,继承自CWinApp的那个类,包括.def文件,.odl文件等都会以MFCApp打头. 但是 ...
SQL Server 2008可以安装在win7 64位的系统上吗？
可以安装的.SQL 支持32和64位.安装时它自动选择的.下载时注意是完整安装包. SQLFULL_CHS 2008.iso大小:3.28G 已经过百度安全检测,放心下载

Spark Task 概述

Spark Task 概述的更多相关文章

随机推荐

热门专题