DAGScheduler stage 划分算法

DAGScheduler stage 划分算法

stage划分算法很重要，对于spark开发人员来说，必须对stage划分算法很清晰，知道自己编写的spark Application被划分成了几个job，每个job被划分成了几个stage，每个stage包括哪些代码，这样当发现哪个stage报错或者执行特别慢，才能针对对应代码排查问题和性能调优

stage 划分思想：

由submitStage() 和getMissingParentStage() 组成

会从触发Action操作的那个RDD开始往前，首先为最后一个RDD创建一个stage，然后在往前，如果遇到某个RDD是宽依赖，就会为宽依赖创建一个新的stage，新的RDD就是最新的stage的最后一个RDD，然后以依次类推，继续往前，根据宽依赖或者窄依赖进行stage划分，知直到最后一个RDD遍历完为止

stage划分步骤：

1、使用出发job的最后一个RDD，创建finalStage（创建一个stage对象，并且将stage加入到DAGScheduler内部的内存缓存中）

2、使用finalStage创建一个job（这个job的最后一个stage，就是 finalStage）

3、将job加入到内存缓存中

4、使用 submitStage() 提交 finalStage　　

提交stage的方法（stage划分算法入口）：

调用 getMissingParentStage() 获取当前这个 stage 的父 stage：

往栈中推入stage的最后一个RDD

while循环对stage的最后一个RDD，调用自己定义的visit()方法

visit（）：如果是窄依赖，将RDD放入栈中，如果是宽依赖，使用宽依赖的那个RDD创建一个stage，将isShuffleMap设为true

提交stage，为stage创建一批task，task数量与Partition数量相同

计算每个task对应的Partition的最佳位置（就是从stage最后一个RDD开始，去找被cache或checkpoint的RDD的Partition，task的最佳位置，就是该Partition的位置，这样task就在那个节点上执行，不需要计算之前的RDD；如果从最后一个RDD到最开始的RDD，都没有被cache或checkpoint，那么最佳位置就是Nil，就是没有最佳位置）

5.、针对stage的task，创建TaskSet对象，调用TaskScheduler的submitTask方法，提交TaskSet，提交到Excutor上去执行

总结如下：

1、从finalstage倒推，

2、通过宽依赖进行新的stage划分

3、使用递归，优先提交父stage

对于每一种有shuffle的操作。底层对应了三个RDD：MapPartitionsRDD、ShuffleRDD、MapPartitionsRDD

DAGScheduler stage 划分算法的更多相关文章

17、stage划分算法原理及DAGScheduler源码分析
一.stage划分算法原理 1.图解二.DAGScheduler源码分析 1. ###org.apache.spark/SparkContext.scala // 调用SparkContext,之前 ...
Spark源码剖析（八）：stage划分原理与源码剖析
引言对于Spark开发人员来说,了解stage的划分算法可以让你知道自己编写的spark application被划分为几个job,每个job被划分为几个stage,每个stage包括了你的哪些代码 ...
[Spark内核] 第34课：Stage划分和Task最佳位置算法源码彻底解密
本課主題 Job Stage 划分算法解密 Task 最佳位置算法實現解密引言作业调度的划分算法以及 Task 的最佳位置的算法,因为 Stage 的划分是DAGScheduler 工作的核心,这 ...
Stage划分和Task最佳位置算法源码彻底解密
本课主题 Job Stage 划分算法解密 Task 最佳位置算法实现解密引言作业调度的划分算法以及 Task 的最佳计算位置的算法,因为 Stage 的划分是DAGScheduler 工作的核心 ...
（升级版）Spark从入门到精通（Scala编程、案例实战、高级特性、Spark内核源码剖析、Hadoop高端）
本课程主要讲解目前大数据领域最热门.最火爆.最有前景的技术——Spark.在本课程中,会从浅入深,基于大量案例实战,深度剖析和讲解Spark,并且会包含完全从企业真实复杂业务需求中抽取出的案例实战.课 ...
【Spark 深入学习 04】再说Spark底层运行机制
本节内容 · spark底层执行机制 · 细说RDD构建过程 · Job Stage的划分算法 · Task最佳计算位置算法一.spark底层执行机制对于Spark底层的运行原理,找到了一副很好的 ...
Spark任务提交底层原理
Driver的任务提交过程 1.Driver程序的代码运行到action操作,触发了SparkContext的runJob方法.2.SparkContext调用DAGScheduler的runJob函 ...
一个Spark job的生命历程
一个job的生命历程 dagScheduler.runJob //(1) --> submitJob ( eventProcessLoop.post(JobSubmitted,***) //(2 ...
Spark集群基础概念与 spark架构原理
一.Spark集群基础概念将DAG划分为多个stage阶段,遵循以下原则: 1.将尽可能多的窄依赖关系的RDD划为同一个stage阶段. 2.当遇到shuffle操作,就意味着上一个stage阶段结 ...

随机推荐

Python之selenium+pytesseract 实现识别验证码自动化登录脚本
今天写自己的爆破靶场WP时候,遇到有验证码的网站除了使用pkav的工具我们同样可以通过py强大的第三方库来实现识别验证码+后台登录爆破,这里做个笔记~~~ 0x01关于selenium seleniu ...
windows系统安全日志取证工具
0x01 关于日志 Windows安全事件日志中详细记录了是谁在什么时候通过什么手段登录到系统或者注销了登录,通过分析该日志可以详细了解服务器的安全情况以及必要时的取证工作. 0x02 查看日志传统 ...
cmake::helloworld
ubuntu16. cmake安装 apt-get install cmake 1.创建 CMakeLists.txt , main.cpp 2.cmake . 生成 makefile 3.遇到错误c ...
C# 关于config文件中的usersettings
在调整app.config的时候遇到了一点问题,把这个问题记录下来,可能我只是没有找到解决方案,问题本身也许并不复杂. 在VS中通过Properties中的Settings.settings来设置作用 ...
16.Nginx HTTPS实践
1.不做任何修改实现http跳转https(协议间的跳转): return [root@web01 conf.d]# cat url.cheng.com.conf server { listen 80 ...
15.Nginx动静分离Rewrite
1.什么是动静分离? 将动态请求和静态请求区分访问, 2.为什么要做动静分离? 静态由Nginx处理, 动态由PHP处理或Tomcat处理.... 因为Tomcat程序本身是用来处理jsp代码的,但t ...
Spring 框架基础(04)：AOP切面编程概念，几种实现方式演示
本文源码:GitHub·点这里 || GitEE·点这里一.AOP基础简介 1.切面编程简介 AOP全称:Aspect Oriented Programming,面向切面编程.通过预编译方式和运行期 ...
BeetleX服务网关之服务发现与泛域名路由
在新版本的服务网关中提供了服务发现和泛域名路由解决功能,服务发现可以在无须配置的情况下实现服务自动注册到网关中解脱对服务配置的繁琐工作:而泛域名路由则可以针对不同的域名制定不同的负载规则. 使用con ...
深入全面探究有未经处理的异常: 0xC00000FD: Stack overflow(栈溢出)问题！
这两天一直遇到标题上的问题,我相信很多朋友在执行代码的时候都会遇到这样的问题,我在网上也找了很多的资料解决这个问题,虽然有些方法能解决,但是总觉得总结的不是很全面,这里我自己在相对全面的总结一下,如果 ...
设计模式（十五）Facade模式
Facade模式可以为相互关联在一起的错综复杂的类整理出高层接口,可以让系统对外只有一个简单的接口,而且还会考虑到系统内部各个类之间的责任关系和依赖关系,按照正常的顺序调用各个类. 还是先看一下示例程 ...

DAGScheduler stage 划分算法

DAGScheduler stage 划分算法的更多相关文章

随机推荐

热门专题