Spark源码分析之一：Job提交运行总流程概述

Spark是一个基于内存的分布式计算框架，运行在其上的应用程序，按照Action被划分为一个个Job，而Job提交运行的总流程，大致分为两个阶段：

1、Stage划分与提交

（1）Job按照RDD之间的依赖关系是否为宽依赖，由DAGScheduler划分为一个个Stage，并将每个Stage提交给TaskScheduler；

（2）Stage随后被提交，并由TaskScheduler将每个stage转化为一个TaskSet；

2、Task调度与执行：由TaskScheduler负责将TaskSet中的Task调度到Worker节点的Executor上执行。

而对于第一阶段Stage划分与提交，又主要分为三个阶段：

1、Job的调度模型与运行反馈；

2、Stage划分；

3、Stage提交：对应TaskSet的生成。

下面，就以图及部分源码，概略介绍下以上三个阶段。

一、Job的调度模型与运行反馈

1、首先由DAGScheduler负责将Job提交到事件队列eventProcessLoop中，等待调度执行

该事件队列为DAGSchedulerEventProcessLoop类型，内部封装了一个BlockingQueue阻塞队列，并由一个后台线程eventThread不断的调用onReceive()方法处理其中的事件；

2、创建一个JobWaiter对象并返回给客户端

利用这个JobWaiter对象的awaitResult()方法对Job进行监控与运行反馈，并获得JobSucceeded和JobFailed两种Job运行结果；

3、DAGSchedulerEventProcessLoop的onReceive()方法处理事件

onReceive()方法继续调用doOnReceive(event)方法，然后根据传入的事件类型DAGSchedulerEvent决定调用哪个方法处理事件，这里传入的是JobSubmitted事件，调用的是DAGScheduler的handleJobSubmitted()方法，继而进入下一个阶段。

整个处理流程如下图所示：

二、Stage划分

在第一阶段将JobSubmitted事件提交到事件队列后，DAGScheduler的handleJobSubmitted()方法就开始了Stage的划分。

首先，根据finalRDD获取其Parent Stages，即ShuffleMapStage列表；

然后，利用finalRDD生成最后一个Stage，即ResultStage；

最后，生成ActiveJob对象，并维护各种stage、job等数据结构。

整个处理流程如下图所示：

三、Stage提交：对应TaskSet的生成

首先，提交finalStage；

然后，提交其parent Stage，如果对应parent Stage还存在尚未提交的parent Stage，提交之；

最好，对于没有parent Stage的Stage，根据stage中rdd的分区，生成tasks，即TaskSet，创建TaskSetManager，并由SchedulerBackend申请资源。

整个处理流程如下图所示：

未完待续，明天继续~

博客原地址：http://blog.csdn.net/lipeng_bigdata/article/details/50663569

Spark源码分析之一：Job提交运行总流程概述的更多相关文章

Spark源码分析之八：Task运行（二）
在<Spark源码分析之七:Task运行(一)>一文中,我们详细叙述了Task运行的整体流程,最终Task被传输到Executor上,启动一个对应的TaskRunner线程,并且在线程池中 ...
Spark源码分析之七：Task运行（一）
在Task调度相关的两篇文章<Spark源码分析之五:Task调度(一)>与<Spark源码分析之六:Task调度(二)>中,我们大致了解了Task调度相关的主要逻辑,并且在T ...
Spark源码分析之二：Job的调度模型与运行反馈
在<Spark源码分析之Job提交运行总流程概述>一文中,我们提到了,Job提交与运行的第一阶段Stage划分与提交,可以分为三个阶段: 1.Job的调度模型与运行反馈: 2.Stage划 ...
Spark源码分析之五：Task调度（一）
在前四篇博文中,我们分析了Job提交运行总流程的第一阶段Stage划分与提交,它又被细化为三个分阶段: 1.Job的调度模型与运行反馈: 2.Stage划分: 3.Stage提交:对应TaskSet的 ...
Spark源码分析之九：内存管理模型
Spark是现在很流行的一个基于内存的分布式计算框架,既然是基于内存,那么自然而然的,内存的管理就是Spark存储管理的重中之重了.那么,Spark究竟采用什么样的内存管理模型呢?本文就为大家揭开Sp ...
Netty源码分析第3章(客户端接入流程)---->第1节: 初始化NioSockectChannelConfig
Netty源码分析第三章: 客户端接入流程概述: 之前的章节学习了server启动以及eventLoop相关的逻辑, eventLoop轮询到客户端接入事件之后是如何处理的?这一章我们循序渐进, 带 ...
Spark源码分析之四：Stage提交
各位看官,上一篇<Spark源码分析之Stage划分>详细讲述了Spark中Stage的划分,下面,我们进入第三个阶段--Stage提交. Stage提交阶段的主要目的就一个,就是将每个S ...
spark 源码分析之十九 -- Stage的提交
引言上篇 spark 源码分析之十九 -- DAG的生成和Stage的划分中,主要介绍了下图中的前两个阶段DAG的构建和Stage的划分. 本篇文章主要剖析,Stage是如何提交的. rdd的依赖 ...
Spark源码分析：多种部署方式之间的区别与联系（转）
原文链接:Spark源码分析:多种部署方式之间的区别与联系(1) 从官方的文档我们可以知道,Spark的部署方式有很多种:local.Standalone.Mesos.YARN.....不同部署方式的 ...

随机推荐

【HDOJ5956】The Elder（树形DP，斜率优化）
题意:有一棵n个点的有根树,每条边上有一个边权.给定P,从i跳到它的祖先j的费用是距离的平方+P,问所有点中到根节点1的总花费最大值 n<=1e5,p<=1e6,w<=1e2 思路: ...
【UVA11859】Division Game（SG函数，Nim游戏）
题意:给定一个n*m的矩阵,两个游戏者轮流操作. 每次可以选一行中的1个或多个大于1的整数,把它们中的每个数都变成它的某个真因子,不能操作的输. 问先手能否获胜 n,m<=50,2<=a[ ...
PE笔记之DOS头
IMAGE_DOS_HEADER STRUCT { +0h WORD e_magic // Magic DOS signature MZ(4Dh 5Ah) DOS可执行文件标记 +2h ...
《Linux命令行与shell脚本编程大全第3版》Linux命令行---56
以下为阅读<Linux命令行与shell脚本编程大全第3版>的读书笔记,为了方便记录,特地与书的内容保持同步,特意做成一节一次随笔,特记录如下:
修复Kaos的中文显示
前段时间为了尝鲜KDE5,于是安装了Kaos 2015.2,默认的kde5桌面,速度也不错,软件更新很及时,计划淘汰掉chakra算了,一直中文在终端下显示为乱码,经网上搜索整理记录如下: (1)使用 ...
hdu 4990(数学,等比数列求和)
Reading comprehension Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Ot ...
svn报“Previous operation has not finished; run 'cleanup' if it was interrupted”的错误
-.叙述今天需要更新接口文檔,所以就update了一下,結果報了如下錯誤: Error : Previous operation has not finished; run 'cleanu ...
HDU——最大连续子序列（区间DP）
上一个题的加强版! 最大连续子序列 Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/32768 K (Java/Others ...
CMake的应用（在vision studio2008中去掉 ALL_BUILD 和 ZERO_CHECK）
from http://blog.csdn.net/jtop0/article/details/6167432 一般由CMake是跨平台软件开发和维护过程的工程构建工具.“在每个系统构建你的工程 ...
MFC中创建基于CFormView的文档视图程序
在MFC中可以创建多种类型的窗口程序,如对话框程序.单文档结构程序(非文档/视图结构).单文档(文档/视图结构)以及多文档视图结构程序等. 在编写一般的小工具时,我们的首选显然是对话框程序,不过基于对 ...

Spark源码分析之一：Job提交运行总流程概述

Spark源码分析之一：Job提交运行总流程概述的更多相关文章

随机推荐

热门专题