一个 Spark 应用程序的完整执行流程

1、编写 Spark Application 应用程序

2、打 jar 包，通过 spark-submit 提交执行

3、SparkSubmit 提交执行

4、执行 Spark Application 的 main 方法

5、初始化 SparkContext，这一步主要是把执行 Application 所需要的一个 Driver 和多个 Executor 启动起来

6、执行到 Action 算子，这个阶段会产生 DAG 血缘依赖关系，但是并没有真正执行

7、执行 Action 算子，生成一个 Job 提交执行

8、DAGScheduler 会对提交的 Job 进行 Stage 切分

9、TaskSchedule 通过 TaskSet 获取 job 的所有 Task，然后序列化分给 Exector

....

shuffle

Application、Job、Stage 和 Task

1、Application：初始化一个 SparkContext 即生成一个 Application；

2、Job：一个 Action 算子就会生成一个 Job；

3、Stage：Stage 等于宽依赖的个数加 1；

4、Task：一个 Stage 阶段中，最后一个 RDD 的分区个数就是 Task 的个数。

注意：Application->Job->Stage->Task每一层都是1对n的关系

Spark Application 提交分析

入口：spark application 中的 action 算子！（SparkPi 程序中的 reduce 函数）

以 SparkPi 程序举例：reduce() 算子就是提交 job 的入口

最后到：

dagScheduler.handleJobSubmitted(jobId, rdd, func, partitions, callSite, listener, properties)

从此，任务的提交就交给了 dagScheduler

Spark App Stage 切分分析

入口：EventLoop 中的 eventQueue.take() 方法

如果任务提交，则有 JobSubmitted 事件提交到 eventQueue 中，则 eventQueue.take() 阻塞返回，此时的 event 就是 JobSubmitted。

根据事件机制，跳转到：DAGScheduler.handleJobSubmitted()

两个核心的方法：

// stage切分入口

finalStage = createResultStage(finalRDD, func, partitions, jobId, callSite)

// 提交stage执行入口

submitStage(finalStage)

方法依赖关系：

1、createResultStage(传入finalRDD获得ResultStage) ->2

2、getOrCreateParentStages(传入rdd获得父stage) ->3->4

	3、getShuffleDependencies(传入rdd获得宽依赖)

	4、getOrCreateShuffleMapStage(传入宽依赖获得ShuffleMapStage) ->5->6

		5、getMissingAncestorShuffleDependencies(传入一个rdd获得所有宽依赖) ->3

		6、createShuffleMapStage(传入宽依赖获得ShuffleMapStage) ->2

Spark Task 分发和执行分析

入口：

taskScheduler.submitTasks(new TaskSet(tasks.toArray, stage.id, stage.latestInfo.attemptNumber, jobId, properties))

backend.reviveOffers()

总结一下：

1、用户编写 spark 应用程序

2、达成jar包

3、通过spark-submit 提交执行

4、sparkSessioin sparkContext 初始化

5、执行action算子

6、sparkContext.runJob()

7、dagScheduler.handleJobSubmitted()

8、dagScheduler.runJob()

	createResultStage() stage切分

	submitStage()

9、taskScheduler.submitTasks(new TaskSet())

10、schedulerBackEnd.reviveOffers();

11、Driver发送 LaunchTask 消息给 Executor

12、Executor 就会封装Task 为一个 TaskRunner 对象，提交给该 Executor 的线程池执行

13、Executor 执行的Task 有可能是 ShuffleMapTask,也有可能是ResultTask

14、ShuffleMapTask 会后续的 Shuffle操作，具体有 Writer 完成

Spark Suffle 源码分析

入口：

Task.runTask()

一个 Spark 应用程序的完整执行流程的更多相关文章

一个简单的mfc单页界面文件读写程序（MFC 程序入口和执行流程）
参考:MFC 程序入口和执行流程 http://www.cnblogs.com/liuweilinlin/archive/2012/08/16/2643272.html 程序MFCFlie ...
MFC 程序入口和执行流程
MFC(微软基础类库)以C++类的形式封装了Windows API,给开发者提供了便利,但是初学者常常会疑惑MFC程序的入口在哪里?下面给大家简单介绍一下MFC 程序入口和执行流程. 一 MFC程序执 ...
[大数据从入门到放弃系列教程]第一个spark分析程序
[大数据从入门到放弃系列教程]第一个spark分析程序原文链接:http://www.cnblogs.com/blog5277/p/8580007.html 原文作者:博客园--曲高终和寡 **** ...
【转载】MFC 程序入口和执行流程
原文链接: http://www.cnblogs.com/liuweilinlin/archive/2012/08/16/2643272.html 一 MFC程序执行过程剖析 1)我们知道在WIN32 ...
【转】MFC 程序入口和执行流程
一 MFC程序执行过程剖析 1)我们知道在WIN32API程序当中,程序的入口为WinMain函数,在这个函数当中我们完成注册窗口类,创建窗口,进入消息循环,最后由操作系统根据发送到程序窗口的消息调用 ...
Spark（五）Spark任务提交方式和执行流程
一.Spark中的基本概念 (1)Application:表示你的应用程序 (2)Driver:表示main()函数,创建SparkContext.由SparkContext负责与ClusterMan ...
Spark的任务提交和执行流程概述
1.概述为了更好地理解调度,我们先看一下集群模式的Spark程序运行架构图,如上所示: 2.Spark中的基本概念 1.Application:表示你的程序 2.Driver:表示main函数,创建 ...
MFC学习（三）程序入口和执行流程
1) WIN32 API程序当中,程序入口为WinMain函数,在这个函数当中我们完成注册窗口类,创建窗口,进入消息循环,最后由操作系统根据发送到程序窗口的消息调用程序窗口函数.而在MFC程序当中我们 ...
第一个spark+scala程序
import org.apache.spark._import SparkContext._import java.util.{Calendar,Properties,Date,Locale}impo ...

随机推荐

Mac插件太多太乱怎么办？CleanMyMac直接帮你搞定！
电脑应用插件在一定程度上便利了大家的生活,保障了用户的使用安全,比如Flash插件.浏览器翻译插件.银行安全登录插件等等.但是许多的插件并不能定位安装的位置,同时部分插件,大部分时候都是只使用一次的, ...
刚安装好的MathType怎么使用
对于刚接触公式编辑器的新手来说,难免会存在很多疑问:如何使用刚安装好的Word公式编辑器?安装好公式编辑器之后,我们在哪里找到这个工具呢?下面就针对大家的这些疑问,来给大家介绍下首次使用MathTyp ...
python 如何跳过异常继续执行
使用try...except...语句,类似于if...else...,可以跳过异常继续执行程序,这是Python的优势用法如下: 1 2 3 4 5 6 try: # 可能会 ...
JAVA面试宝典分享
JAVA面试宝典分享前言面试题 Java面试题(上) Java面试题(中) Java面试题(下) 参考答案其他补充内容: 项目经验项目介绍项目开发流程项目管理系统架构第三方工具(插件) ...
Python学习系列之列表（十一）
一.为什么需要列表变量可以存储一个元素,而列表是一个"大容器"可以存储N多个元素,程序可以方便地对这些数据进行整体操作列表相当于其它语言中的数组二.列表的创建1.列表需要使用 ...
Matlab 条件循环函数
条件判断 if 表达式语句 elseif 表达式语句 -. else 语句 end 这个与c语言不同的就是 1:要多一个end 2:还有没有括号 3:else if连在一起 for 循环 for ...
ubuntu安装vmware
安装过程: 首先直接将光盘文件中的tar.gz复制到桌面,解压过程如下中间遇到的问题: 在执行的过程中一直在回车,需要输入的全为yes,还有一个是what is the location of th ...
moviepy音视频剪辑：视频基类VideoClip子类DataVideoClip、UpdatedVideoClip、ImageClip、ColorClip、TextClip类详解
☞ ░ 前往老猿Python博文目录 ░ 一.概述在<moviepy音视频剪辑:moviepy中的剪辑相关类及关系>介绍了剪辑相关类及关系,其中VideoClip有多个直接子类和间接子类 ...
moviepy音视频剪辑：使用fl_time进行诸如快播、慢播、倒序播放等时间特效处理的原理和可能遇到的坑
专栏:Python基础教程目录专栏:使用PyQt开发图形界面Python应用专栏:PyQt+moviepy音视频剪辑实战专栏:PyQt入门学习老猿Python博文目录老猿学5G博文目录一. ...
Python使用property函数和使用@property装饰器定义属性访问方法的异同点分析
Python使用property函数和使用@property装饰器都能定义属性的get.set及delete的访问方法,他们的相同点主要如下三点: 1.定义这些方法后,代码中对相关属性的访问实际上都会 ...

一个 Spark 应用程序的完整执行流程

一个 Spark 应用程序的完整执行流程

Application、Job、Stage 和 Task

Spark Application 提交分析

Spark App Stage 切分分析

Spark Task 分发和执行分析

Spark Suffle 源码分析

一个 Spark 应用程序的完整执行流程的更多相关文章

随机推荐

热门专题