Spark 资源调度及任务调度

1、资源分配

通过SparkSubmit进行提交应用后，首先会创建Client将应用程序(字节码文件.class)包装成Driver,并将其注册到Master。Master收到Client的注册请求后将其加入待调度队列waitingDrivers，并等待分配执行资源。

1．1 Dirver调度(分配Driver执行容器，1个)

Master中调度程序执行时会为Driver分配一满足其执行要求的Worker, 并通知Worker启动将Driver。Worker接到执行Driver指令后创建DriverRunner执行Driver(应用程序mainClass，mainClass执行时其会创建Spark执行上下文环境：SparkContext。伴随SparkContext会创建DAGScheduler和TaskScheduler分别用于Stage调度和任务调度,并会触发RDD的Action算子提交job)。

1.2 APP调度(分配Executor，多个)

若想Job运行就需要得到执行资源，Dirver成功执行后，会通过SparkDeployScheduler-Backend创建AppClient(包装App信息，包含可以创建CoarseGrainedExecutorBackend实例Command)，用于向Master汇报资源需求。Master接到AppClient的汇报后，将其加入waittingApps队列，等待调度。

App调度时会为app分配满足条件的资源-----Worker（State是Alive，其上并没有该Application的executor，可用内存满足要求(spark.executor.memory指定，默认512), 核满足要求(spark.cores.max, 最大可用core数，若未指定，则为全部资源)），然后通知Woker启动Excutor. 及向AppClient发送ExecutorAdded消息。

进行调度时，调度程序会根据配制SpreadOutApps = spark.deploy.spreadOut情况决定资源分配方式，若

SpreadOutApps方式：将每个app分配到尽可能多的worker中执行。

1 从列表中取下一app，根据CPU情况找出合适的woker,按核从小到大排序

2 如果worker节点存在可以分配的core 则进行预分配处理（轮循一次分一个直至满足app需求），并在分配列表（assigned = Array[Int](numUsable)）中记数。

3根据assinged列表中的预分配信息，进行分配Executor（真实分配）

4 启动Executor并设置app.state = ApplicationState.RUNNING

非SpreadOutApps方式: 将每个app分配到尽可能少的worker中执行。

1 从可用的worker列表中取下一work. (worker <- workers if worker.coresFree > 0)

2 遍历waitingApps 找到满足app运行条件的app，进行分配

3启动Executor(launchExecutor(w,e))并设置app.state = ApplicationState.RUNNING

其中：launchExcutor(worker, exec) 具体内容如下：

向executor分配给worker

通知worker启动executor

由分配过程可知，分配的Excutor个数与CPU核心数有关。当指定完Worker节点后，会在Worker节点创建ExecutorRunner，并启动，执行App中的Command 去创建并启动CoarseGrainedExecutorBackend。CoarseGrainedExecutorBackend启动后，会首先通过传入的driverUrl这个参数向在CoarseGrainedSchedulerBackend::DriverActor(用于与Master通信，及调度任务)发送RegisterExecutor(executorId, hostPort, cores)，DriverActor会创建executorData（executor信息）加入executorDataMap供后续task使用，并回复RegisteredExecutor，此时CoarseGrainedExecutorBackend会创建一个org.apache.spark.executor.Executor。至此，Executor创建完毕。Executor是直接用于task执行，是集群中的直接劳动者。

至此，资源分配结束。当分配完资源后，就可以为依本地性为任务分配具体的执行资源。

2、Stage划分

当执行mainClass时，执行到RDD的action算子时，会触发执行作业(sc.runJob)，最终通过调用DAGScheduler的runJob方法根据RDD信息及action算子要做的操作创建ResultStage(FinalStage)及ActiveJob。

若ResultStage创建成功的话，根据配制信息及RDD特征可分为本地执行，集群执行。

若“spark.localExecution.enable”指定允许本地运行（默认为：false，不允许），具RDD的action算了允许本地运行allowLocal=true,且RDD只有一个partition的话可以直接以本地线程执行job,无需划分stage。否则要将job分成多个Stage提交到集群去执行（通过提交ResultStage进行）。

因为ResultStage提交时，首先会去判断其是否存在缺失的ParentStage（也就是说是否存在未完成的父Stage）。若有，则其需要等待其父Stage执行完成，才能进行提交执行。
判断是否存在Stage的标准是看是否存在ShuffeDependency（Stage的分界线）。提交ResultStage时会根据其finalRDD 的依赖递归的寻找其DAG图中是否存在ShuffeDependency, 若存在，则创建ShuffleMapStage做为finalStage的父Stage以此类似。但至此，只能说存在父Stage并不能说存在缺失的父Stage. 判断缺失的标准是看其结果成功的输出信息（status）个数与其处理的分区个数是否相同，如若相同，则说明父Stage已经执行完成, 不存在missing；否则，说明还未完成，存在missing. 因为将ShuffleMapStage划分成maptask时，每个Partition对应一个maptask, 每个task会得到一个status输出结果信息，并在执行结束时将输出结果上报mapOutputTracker，并更新shuffleStage状态(将status增加进行其outputLocs列表，并将numAvailableOutputs加1)，若numAvailableOutputs 与 Stage所要处理的partitions一致，说明所有的task都已经执行完成，即Stage执行完成；否则，说明还有task未完成，即Stage未完成。
由上述分析可知，存在依赖关系的两个Stage，如果父Stage未执行完成，子Stage不能提交，也就是不能转变为Taskset加入任务调度队列。因此其先后顺序是严格控制的。我们知道只有存在ShuffleDependency时，才会划分Stage，这也就是说两个Stage之间是要做Shuffle操作的。根据上述分析可知Shuffle时ShuffleWrite做不完，ShuffleRead不能进行.

3． Task调度

当Stage不存在缺失的ParentStage时，会将其转换为TaskSet并提交。转换时依Stage类型进行转换：将ResultStage转换成ResultTask,
ShuffleMapStage转换成ShuffleMapTask. Task个数由Stage中finalRDD 的分区数决定。

当转换成的TaskSet提交之后，将其通过taskScheduler包装成TaskSetManager并添加至调度队列中（Pool）,等待调度。在包装成TaskSetManager时，根据task的preferredLocatitions将任务分类存放在pendingTasksForExecutor,
pendingTaskForHost, pendingTasksForRack,
pendingTaskWithNoPrefs及allPendingTasks中，
前三个列表是是包含关系（本地性越来越低），范围起来越大，例如：在pendingTasksForExecutor也在pendingTaskForHost，pendingTasksForRack中，分类的目的是在调度时，依次由本地性高à低的查找task。

在进行Task调度时，首先根据调度策略将可调度所有taskset进行排序，然后对排好序的taskset待调度列表中的taskset，按序进行分配Executor。再分配Executor时，然后逐个为Executor列表中可用的Executor在此次选择的taskset中按本地性由高到低查找适配任务。此处任务调度为延迟调度，即若本次调度时间距上一任务结束时间小于当前本地性配制时间则等待，若过了配制时间，本地性要求逐渐降低，再去查找适配的task。当选定某一task后后将其加入runningtask列表，当其执行完成时会加入success列表，下次调度时就会过滤过存在这两个列表中的任务，避免重复调度。

当一个任务执行结束时，会将其从runningtask中移除，并加入success,并会适放其占用的执行资源,供后序task使用，
将判断其执行成功的task数与此taskset任务总数相等时，意为taskset中所有任务执行结束，也就是taskset结束。此时会将taskset移除出可调度队列。

重复上述过程直到taskset待调度列表为空。即所有作业（job）执行完成。

3.1 spark调度策略

上文任务调度时提到，在调度任务时，首先后依据调度策略对任务按优先级进行排序。下面就调度策略就行介绍。

Spark现有的调度策略有FIFO 及 Fair两种。采用何种调度策略由“spark.scheduler.mode”参数指定，默认为FIFO类型。

　　　下小节进行分析……

……………………

　　　　文章出处：http://www.cnblogs.com/barrenlake/p/4550800.html

　　　 ……………………

Spark 资源调度及任务调度的更多相关文章

【Spark篇】---Spark资源调度和任务调度
一.前述 Spark的资源调度是个很重要的模块,只要搞懂原理,才能具体明白Spark是怎么执行的,所以尤其重要. 自愿申请的话,本文分粗粒度和细粒度模式分别介绍. 二.具体 Spark资源调度流程图: ...
【Spark-core学习之六】 Spark资源调度和任务调度
环境虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk1.8 scala-2.10.4(依赖jdk1.8) spark ...
Spark 资源调度与任务调度
Spark 资源调度与任务调度的流程(Standalone): 启动集群后, Worker 节点会向 Master 节点汇报资源情况, Master掌握了集群资源状况. 当 Spark 提交一个 Ap ...
Spark资源调度及任务调度
1. 资源分配通过SparkSubmit进行提交应用后,首先会创建Client将应用程序(字节码文件.class)包装成Driver,并将其注册到Master.Master收到Client的注册请 ...
Spark资源调度和任务调度
一.资源调度&任务调度 1.启动集群后,Worker节点会周期性的[心跳]向Master节点汇报资源情况,Master掌握集群资源情况. 2.当Spark提交一个Application后,根据 ...
Spark Core_资源调度与任务调度详述
转载请标明出处http://www.cnblogs.com/haozhengfei/p/0593214ae0a5395d1411395169eaabfa.html Spark Core_资源调度与任务 ...
Spark Core 资源调度与任务调度（standalone client 流程描述）
Spark Core 资源调度与任务调度(standalone client 流程描述) Spark集群启动: 集群启动后,Worker会向Master汇报资源情况(实际上将Worker的资 ...
spark 图文详解:资源调度和任务调度
讲说spark的资源调度和任务调度,基本的spark术语,这里不再多说,懂的人都懂了... 按照数字顺序阅读,逐渐深入理解:以下所有截图均为个人上传,不知道为什么总是显示别人的QQ,好尴尬,无所谓啦, ...
[Spark内核] 第31课：Spark资源调度分配内幕天机彻底解密：Driver在Cluster模式下的启动、两种不同的资源调度方式源码彻底解析、资源调度内幕总结
本課主題 Master 资源调度的源码鉴赏 [引言部份:你希望读者看完这篇博客后有那些启发.学到什么样的知识点] 更新中...... 资源调度管理任务调度与资源是通过 DAGScheduler.Ta ...

随机推荐

实现字符串匹配的KMP算法
KMP算法是Knuth-Morris-Pratt算法的简称,它主要用于解决在一个长字符串S中匹配一个较短字符串s. 首先我们从整体来把我这个算法的思想. 字符串匹配的朴素算法: 我们容易想到朴素算法, ...
通过百度获取IP地址对应的经纬度
/** * 获取指定IP对应的经纬度(为空返回当前机器经纬度) * * @param ip * @return */ public static String[] getIPXY(String ip ...
AFNetworking (3.1.0) 源码解析 <一>
首先说一下AFNetworking的github地址:GitHub - AFNetworking/AFNetworking: A delightful networking framework for ...
Understand Rails Authenticity Token
翻译整理自: http://stackoverflow.com/questions/941594/understand-rails-authenticity-token 主要翻译的是第一个回答,另外结 ...
Lucene自定义扩展QueryParser
Lucene版本:4.10.2 在使用lucene的时候,不可避免的需要扩展lucene的相关功能来实现业务的需要,比如搜索时,需要在满足一个特定范围内的document进行搜索,如年龄在20和30岁 ...
Difference between Tomcat's extraResourcePaths and aliases to access an external directory--转
Question: Simple question: In Tomcat7, what's the difference between using extraResourcePaths and al ...
[转] gdb的基本工作原理
转自: http://www.spongeliu.com/linux/howgdbwork/ 还是面某M的时候,面试官问我:“用过gdb么?” 答:“用过,调了两年bug了”.“那好,给我解释下gdb ...
Java基础知识强化88：BigDecimal类之BigDecimal类引入和概述以及 BigDecimal的使用（加减乘除）
1. BigDecimal类概述: 由于在运算的时候,float类型和double很容易丢失精度.所以为了能够精确的表达.计算浮点数,Java提供了BigDecimal. BigDecimal:不可变 ...
yii criteria select column as 与时间段查询
需要查询某时间段的记录,但是数据库里只有一个时间记录,如果写sql的话,很快的,放到yii里一时竟然没办法... 不过,最后还是解决了,使用了一个第三方的插件参考http://www.yiifram ...
IIS配置
IIS配置文档: 1.安装IIS.控制面板→程序→打开关闭Windows功能,Web管理服务和万维网服务都勾上. 2.部署网站:ASP.Net项目的发布:项目中点右键“发布”,选择“文件系统”,发布到 ...

Spark 资源调度及任务调度

Spark 资源调度及任务调度的更多相关文章

随机推荐

热门专题