Spark源代码分析之中的一个:Job提交执行总流程概述
Spark是一个基于内存的分布式计算框架。执行在其上的应用程序,依照Action被划分为一个个Job。而Job提交执行的总流程。大致分为两个阶段:
1、Stage划分与提交
(1)Job依照RDD之间的依赖关系是否为宽依赖。由DAGScheduler划分为一个个Stage。并将每一个Stage提交给TaskScheduler;
(2)Stage随后被提交,并由TaskScheduler将每一个stage转化为一个TaskSet;
2、Task调度与运行:由TaskScheduler负责将TaskSet中的Task调度到Worker节点的Executor上运行。
而对于第一阶段Stage划分与提交。又主要分为三个阶段:
1、Job的调度模型与执行反馈;
2、Stage划分。
3、Stage提交:相应TaskSet的生成。
以下。就以图及部分源代码,概略介绍下以上三个阶段。
一、Job的调度模型与执行反馈
1、首先由DAGScheduler负责将Job提交到事件队列eventProcessLoop中。等待调度运行
该事件队列为DAGSchedulerEventProcessLoop类型,内部封装了一个BlockingQueue堵塞队列,并由一个后台线程eventThread不断的调用onReceive()方法处理当中的事件;
2、创建一个JobWaiter对象并返回给client
利用这个JobWaiter对象的awaitResult()方法对Job进行监控与执行反馈。并获得JobSucceeded和JobFailed两种Job执行结果;
3、DAGSchedulerEventProcessLoop的onReceive()方法处理事件
onReceive()方法继续调用doOnReceive(event)方法,然后依据传入的事件类型DAGSchedulerEvent决定调用哪个方法处理事件,这里传入的是JobSubmitted事件。调用的是DAGScheduler的handleJobSubmitted()方法,继而进入下一个阶段。
整个处理流程例如以下图所看到的:
二、Stage划分
在第一阶段将JobSubmitted事件提交到事件队列后。DAGScheduler的handleJobSubmitted()方法就開始了Stage的划分。
首先。依据finalRDD获取其Parent Stages,即ShuffleMapStage列表;
然后,利用finalRDD生成最后一个Stage,即ResultStage;
最后,生成ActiveJob对象,并维护各种stage、job等数据结构。
整个处理流程例如以下图所看到的:
三、Stage提交:相应TaskSet的生成
首先,提交finalStage;
然后,提交其parent Stage,假设相应parent Stage还存在尚未提交的parent Stage。提交之;
最好,对于没有parent Stage的Stage,依据stage中rdd的分区,生成tasks,即TaskSet,创建TaskSetManager,并由SchedulerBackend申请资源。
整个处理流程例如以下图所看到的:
未完待续,明天继续~
Spark源代码分析之中的一个:Job提交执行总流程概述的更多相关文章
- Spark源码分析之一:Job提交运行总流程概述
		
Spark是一个基于内存的分布式计算框架,运行在其上的应用程序,按照Action被划分为一个个Job,而Job提交运行的总流程,大致分为两个阶段: 1.Stage划分与提交 (1)Job按照RDD之间 ...
 - Spark源代码分析之六:Task调度(二)
		
话说在<Spark源代码分析之五:Task调度(一)>一文中,我们对Task调度分析到了DriverEndpoint的makeOffers()方法.这种方法针对接收到的ReviveOffe ...
 - Android多线程分析之中的一个:使用Thread异步下载图像
		
Android多线程分析之中的一个:使用Thread异步下载图像 罗朝辉 (http://blog.csdn.net/kesalin) CC 许可.转载请注明出处 打算整理一下对 Android Fr ...
 - HBase源代码分析之HRegionServer上MemStore的flush处理流程(二)
		
继上篇文章<HBase源代码分析之HRegionServer上MemStore的flush处理流程(一)>遗留的问题之后,本文我们接着研究HRegionServer上MemStore的fl ...
 - HBase源代码分析之HRegionServer上MemStore的flush处理流程(一)
		
在<HBase源代码分析之HRegion上MemStore的flsuh流程(一)>.<HBase源代码分析之HRegion上MemStore的flsuh流程(二)>等文中.我们 ...
 - Oschina 安卓client源代码学习之中的一个
		
今天主要研究一下两个功能 (1)双击返回键退出程序 (2)接近完美地退出程序 (1) 在非常多应用程序里都有一个功能,就是点击返回键,之后提示你再点击返回键就退出程序. 之前一直非常好奇这是怎么实现的 ...
 - Thrift源代码分析(八)--总结加一个完整的可执行的Thrift样例
		
前面七篇文章分析了Thrfit的方方面面,看到这里时应该对Thrift有了深入的理解. Thrift源代码分析(一)-- 基本概念 Thrift源代码分析(二)-- 协议和编解码 Thrift源代码分 ...
 - MapReduce源代码分析之JobSubmitter(一)
		
JobSubmitter.顾名思义,它是MapReduce中作业提交者,而实际上JobSubmitter除了构造方法外.对外提供的唯一一个非private成员变量或方法就是submitJobInter ...
 - Android应用程序内部启动Activity过程(startActivity)的源代码分析
		
文章转载至CSDN社区罗升阳的安卓之旅,原文地址:http://blog.csdn.net/luoshengyang/article/details/6703247 上文介绍了Android应用程序的 ...
 
随机推荐
- thinkphp里面的or查询
			
thinkphp里面的or查询 whereOr 方法 使用whereOr 方法进行OR 查询: Db::table('think_user') ->where('name','like','%t ...
 - 12.ng-switch
			
转自:https://www.cnblogs.com/best/tag/Angular/ 根据作用域表达式动态切换把那个DOM元素包含在已经编译的模板中. 示例代码: <!DOCTYPE htm ...
 - 学习中 常用到的string内置对象方法的总结
			
//concat() – 将两个或多个字符的文本组合起来,返回一个新的字符串. var str = "Hello"; var out = str.concat(" Wor ...
 - BZOJ 3544 treap  (set)
			
我只是想找个treap的练习题-- 每回找到lower_bound 就好啦 //By SiriusRen #include <cstdio> #include <cstring> ...
 - Smart Pointer Guidelines
			
For Developers >  Smart Pointer Guidelines What are smart pointers? Smart pointers are a specif ...
 - Python正则表达式初识(七)
			
继续分享Python正则表达式的基础知识,今天给大家分享的特殊字符是“\s”.“\S”,具体的教程如下. 1.“\s”代表的意思是匹配空格,匹配模式“加\s油”代表的是字符“加”和“油”之间有空格的意 ...
 - Chrome OS 70 发布:这是安卓的私生子吗?
			
谷歌于28日正式宣布推出Chrome OS 70.这个最新的Chrome OS系统在一些设计上具备了更多安卓风味,为配备了触摸屏的Chromebook.平板电脑和二合一设备带来了操作界面改善. 据9t ...
 - Android布局之RelativeLayout
			
RelativeLayout用到的一些重要的属性: 第一类:属性值为true或falseandroid:layout_centerHrizontal 水平居中android:layout_center ...
 - 为线程绑定CPU
			
// learn gcc atomic variable #define _GNU_SOURCE #include <stdio.h> #include <stdlib.h> ...
 - SelectSort
			
/**简单选择排序*/ #include<cstdio> #include<algorithm> using namespace std; int a[]={5,2,1,3,4 ...