Spark作业调度

Spark在任务提交时，主要存在于Driver和Executor的两个节点.

(1)Driver的作用: 用于将所有要处理的RDD的操作转化为DAG，并且根据RDD DAG将JBO分割为多个Stage,最后生成相应的task,分发到各个Executor执行.

流程:sc.runJob -> DAGScheduler.runJob ->submitJob ->DAGEventProcessActor ->dagScheduler.handleJobSubmitted ->submitStage ->submitMissingTasks ->taskScheduler.submitTasks -> schedulerBackend.reviveOffers ->ReviveOffers ->DriverActor ->makeOffers -> resourceOffers ->launchTasks ->CoarseGrainedExecutorBackend(Executor)

其中handleJobSubmitted和submitStage主要负责依赖性分析，生成finalStage,根据finalStage来生成job.

源码newStage用来创建一个新的Stage

private def newStage(

        rdd:RDD[],

        numTasks: Int,

        shuffleDep: Option[ShuffleDependency[_,_,_]],

        jobId:Int,

        callSite:CallSite)

    :stage =

    {

        val id = nextStageId.getAndIncrement()

        val stage = new Stage(id,rdd,numTasks,shuffleDep,getParentStages(rdd,jobId),jobId,callSite)

        stageIdToStage(id) = stage

        updateJobIdStageIdMaps(jobId,stage)

        stageToInfos(stage) = StageInfo.fromStage(stage)

        stage

}

spark在创建一个Stage之前，必须知道该Stage需要从多少个Partition读入数据，据此来创建Task数。源码Stage:

private[spark] class stage(

    val id:Int //stage的序号越大，数值越大

    val rdd: RDD[_], //归属于本stage的最后一个rdd

    val numTasks:Int, //创建的Task的数目,等于父rdd的输出Partition数目

    val shuffleDep:Option[ShuffleDependency[_,_,_]],//是否存在shuffle

    val parents:List[Stage],//父stage列表

    val jobId:Int,//作业id

    val callSite:CallSite)

Stage的划分的重要依据就在于是否有Shuffle操作，既宽依赖（RDD的宽依赖和窄依赖请参考前文，或者百度- -），如果有，则创建一个新的stage.Stage的划分完毕就明确了很多内容了，如下：

(1)产生的stage需要从多少个Partition中读取数据

(2)产生的stage会生成多少个Partition

(3)产生的stage是否属于shuffle

当确认了有多少个Partition，其实就确认了有多少个task。

当作业提交及执行期间，Spark集群中存在大量的消息的交互，所以使用AKKA 进行消息的接收，消息的处理和消息的发送。

下面开始在各个Executor中执行Task。然而Task又被分为ShuffleMapTask和ResultTask两种，相当于Hadoop的Map和Reduce.每个Stage根据isShuffleMap来标记确定Task类型，来区分ShuffleMapTask和ResultTask.一旦task类型和数量确定，下来就分发到各个executor，由Executor启动县城来执行。(从计划到执行)

TaskschedulerImple发送ReviveOffers消息给DriverActor，DriverActor在收到ReviveOffers消息后，调用makeOffers函数进行处理。源码如下:

def makeOffers(){

    launchTasks(scheduler.resourceOffers(

    executorHost.toArray.map{case(id,host)=>new WorkerOffer(id,host,freeCores(id))}))

makeOffers函数主要用来找寻空闲的Executor,随机分发，尽可能的将任务平摊到各个executor中。发现有空闲的Executor，将任务列表中的部分任务利用launchTasks发送给制定的Executor.Task执行完毕.

Spark作业调度的更多相关文章

Spark作业调度阶段分析
Spark作为分布式的大数据处理框架必然或涉及到大量的作业调度,如果能够理解Spark中的调度对我们编写或优化Spark程序都是有很大帮助的: 在Spark中存在转换操作(Transformation ...
【Spark学习】Apache Spark作业调度机制
Spark版本:1.1.1 本文系从官方文档翻译而来,转载请尊重译者的工作,注明以下链接: http://www.cnblogs.com/zhangningbo/p/4135905.html 目录概 ...
Spark 作业调度相关术语
作业(Job):RDD 中由行动操作所生成的一个或多个调度阶段调度阶段(Stage):每个作业会因为 RDD 间的依赖关系拆分成多组任务集合,称为调度阶段,也叫做任务集(TaskSet).高度阶段的 ...
Spark大数据处理技术
全球首部全面介绍Spark及Spark生态圈相关技术的技术书籍俯览未来大局,不失精细剖析,呈现一个现代大数据框架的架构原理和实现细节透彻讲解Spark原理和架构,以及部署模式.调度框架.存储管理及 ...
Spark SQL在100TB上的自适应执行实践（转载）
Spark SQL是Apache Spark最广泛使用的一个组件,它提供了非常友好的接口来分布式处理结构化数据,在很多应用领域都有成功的生产实践,但是在超大规模集群和数据集上,Spark SQL仍然遇 ...
Spark参数配置
转自:http://hadoop1989.com/2015/10/08/Spark-Configuration/ 一.Spark参数设置二.查看Spark参数设置三.Spark参数分类四.Spa ...
spark总结——转载
转载自: spark总结第一个Spark程序 /** * 功能:用spark实现的单词计数程序 * 环境:spark 1.6.1, scala 2.10.4 */ // 导入相关类库impor ...
[转]Spark SQL2.X 在100TB上的Adaptive execution(自适应执行)实践
Spark SQL是Apache Spark最广泛使用的一个组件,它提供了非常友好的接口来分布式处理结构化数据,在很多应用领域都有成功的生产实践,但是在超大规模集群和数据集上,Spark SQL仍然遇 ...
Spark Stage 的划分
Spark作业调度对RDD的操作分为transformation和action两类,真正的作业提交运行发生在action之后,调用action之后会将对原始输入数据的所有transformation ...

随机推荐

POJ 1426 Find The Multiple --- BFS || DFS
POJ 1426 Find The Multiple 题意:给定一个整数n,求n的一个倍数,要求这个倍数只含0和1 参考博客:点我解法一:普通的BFS(用G++能过但C++会超时) 从小到大搜索直至 ...
黑马程序员——JAVA基础之JDK1.5新特性高级for循环和可变参数
------- android培训.java培训.期待与您交流! ---------- 高级for循环格式: for(数据类型变量名 : 被遍历的集合(Collection)或者数组) { ...
display:none,overflow:hidden,visibility:hidden之间的区别
一,display:none; 隐藏元素,不占网页中的任何空间,让这个元素彻底消失(看不见也摸不着) 二,overflow:hidden; 让超出的元素隐藏,就是在设置该属性的时候他会根据你设置的宽高 ...
MySQL 用户与授权管理详解
大纲一.前言二.创建用户并授权三.GRANT语句的种类四.撤权并删除用户一.前言做为Mysql数据库管理员管理用户账户,是一件很重要的事,指出哪个用户可以连接服务器,从哪里连接,连接后能做 ...
套接字I/O模型-WSAEventSelect（转载）
和WSAAsyncSelect类似,它也允许应用程序在一个或多个套接字上,接收以事件为基础的网络事件通知. 该模型最主要的区别是在于网络事件是由对象句柄完成的,而不是通过窗口例程完成. 事件通知事件 ...
Python语言初学总结
课程名称:程序设计方法学实验1:程序设计语言工具时间:2015年10月21日星期三,第3.4节地点:理工楼1#208 一.实验目的 1.深入理解程序设计语言及其几种常见的编程范型: 2.激发学生 ...
shell之脚本练习
脚本需求集合贴-自主开发的对频繁执行的任务有编写脚本的价值对单次执行的任务就用笨的,简单的办法 1.对asterisk写一个脚本查日志输入日期--能够输出对应日期的日志输入多个条件--能够输 ...
ASP.NET GridView HyperLinkField传值和取值【转】
来源:http://www.cnblogs.com/junjie94wan/archive/2011/08/17/2143623.html 经常做Winform程序,好久没有做WEB都有些生疏了,Gr ...
AngularJS 1.5.0-beta.2 and 1.4.8 have been released
AngularJS 1.5.0-beta.2 With AngularJS 1.5.0-beta.2, we’ve improved the performance and flexibility o ...
python中保留两位小数
今天写程序的时候碰到了一个问题关于如何控制浮点数只显示小数点后两位,正常的想法是用round函数,例如 round(a, 2),但是在面对下面的问题时候round就不太好用了 >>> ...

Spark作业调度

Spark作业调度的更多相关文章

随机推荐

热门专题