DAGScheduler stage 划分算法

DAGScheduler stage 划分算法

stage划分算法很重要，对于spark开发人员来说，必须对stage划分算法很清晰，知道自己编写的spark Application被划分成了几个job，每个job被划分成了几个stage，每个stage包括哪些代码，这样当发现哪个stage报错或者执行特别慢，才能针对对应代码排查问题和性能调优

stage 划分思想：

由submitStage() 和getMissingParentStage() 组成

会从触发Action操作的那个RDD开始往前，首先为最后一个RDD创建一个stage，然后在往前，如果遇到某个RDD是宽依赖，就会为宽依赖创建一个新的stage，新的RDD就是最新的stage的最后一个RDD，然后以依次类推，继续往前，根据宽依赖或者窄依赖进行stage划分，知直到最后一个RDD遍历完为止

stage划分步骤：

1、使用出发job的最后一个RDD，创建finalStage（创建一个stage对象，并且将stage加入到DAGScheduler内部的内存缓存中）

2、使用finalStage创建一个job（这个job的最后一个stage，就是 finalStage）

3、将job加入到内存缓存中

4、使用 submitStage() 提交 finalStage　　

提交stage的方法（stage划分算法入口）：

调用 getMissingParentStage() 获取当前这个 stage 的父 stage：

往栈中推入stage的最后一个RDD

while循环对stage的最后一个RDD，调用自己定义的visit()方法

visit（）：如果是窄依赖，将RDD放入栈中，如果是宽依赖，使用宽依赖的那个RDD创建一个stage，将isShuffleMap设为true

提交stage，为stage创建一批task，task数量与Partition数量相同

计算每个task对应的Partition的最佳位置（就是从stage最后一个RDD开始，去找被cache或checkpoint的RDD的Partition，task的最佳位置，就是该Partition的位置，这样task就在那个节点上执行，不需要计算之前的RDD；如果从最后一个RDD到最开始的RDD，都没有被cache或checkpoint，那么最佳位置就是Nil，就是没有最佳位置）

5.、针对stage的task，创建TaskSet对象，调用TaskScheduler的submitTask方法，提交TaskSet，提交到Excutor上去执行

总结如下：

1、从finalstage倒推，

2、通过宽依赖进行新的stage划分

3、使用递归，优先提交父stage

对于每一种有shuffle的操作。底层对应了三个RDD：MapPartitionsRDD、ShuffleRDD、MapPartitionsRDD

DAGScheduler stage 划分算法的更多相关文章

17、stage划分算法原理及DAGScheduler源码分析
一.stage划分算法原理 1.图解二.DAGScheduler源码分析 1. ###org.apache.spark/SparkContext.scala // 调用SparkContext,之前 ...
Spark源码剖析（八）：stage划分原理与源码剖析
引言对于Spark开发人员来说,了解stage的划分算法可以让你知道自己编写的spark application被划分为几个job,每个job被划分为几个stage,每个stage包括了你的哪些代码 ...
[Spark内核] 第34课：Stage划分和Task最佳位置算法源码彻底解密
本課主題 Job Stage 划分算法解密 Task 最佳位置算法實現解密引言作业调度的划分算法以及 Task 的最佳位置的算法,因为 Stage 的划分是DAGScheduler 工作的核心,这 ...
Stage划分和Task最佳位置算法源码彻底解密
本课主题 Job Stage 划分算法解密 Task 最佳位置算法实现解密引言作业调度的划分算法以及 Task 的最佳计算位置的算法,因为 Stage 的划分是DAGScheduler 工作的核心 ...
（升级版）Spark从入门到精通（Scala编程、案例实战、高级特性、Spark内核源码剖析、Hadoop高端）
本课程主要讲解目前大数据领域最热门.最火爆.最有前景的技术——Spark.在本课程中,会从浅入深,基于大量案例实战,深度剖析和讲解Spark,并且会包含完全从企业真实复杂业务需求中抽取出的案例实战.课 ...
【Spark 深入学习 04】再说Spark底层运行机制
本节内容 · spark底层执行机制 · 细说RDD构建过程 · Job Stage的划分算法 · Task最佳计算位置算法一.spark底层执行机制对于Spark底层的运行原理,找到了一副很好的 ...
Spark任务提交底层原理
Driver的任务提交过程 1.Driver程序的代码运行到action操作,触发了SparkContext的runJob方法.2.SparkContext调用DAGScheduler的runJob函 ...
一个Spark job的生命历程
一个job的生命历程 dagScheduler.runJob //(1) --> submitJob ( eventProcessLoop.post(JobSubmitted,***) //(2 ...
Spark集群基础概念与 spark架构原理
一.Spark集群基础概念将DAG划分为多个stage阶段,遵循以下原则: 1.将尽可能多的窄依赖关系的RDD划为同一个stage阶段. 2.当遇到shuffle操作,就意味着上一个stage阶段结 ...

随机推荐

使用jmeter进行压力测试入门讲解
1.下载安装jmeter 略我这里放上5.1版本的,有需要可以下载链接:https://pan.baidu.com/s/1xRZZmTY4do1oDU_xPit94Q&shfl=share ...
攻防世界(XCTF)WEB(进阶区)write up(一)
cat ics-05 ics-06 lottery Cat XCTF 4th-WHCTF-2017 输入域名输入普通域名无果输入127.0.0.1返回了ping码的结果有可能是命令执行 ...
linux系统取证
目录 0x00 查看系统信息 0x01 用户及组信息 0x02 防火墙及路由信息 0x03 查看网络.端口信息 0x04 系统运行信息查看 0x05 日志查看分析 0x00 查看系统信息 name-a ...
Python之random模块和time模块
1.random()模块的使用 import random x = random.random() y = random.random() print(x,y*10) #random.random ...
Codeforces 986B - Petr and Permutations
Description\text{Description}Description Given an array a[], swap random 2 number of them for 3n or ...
mysql 数据分析如何实现日报、周报、月报和年报？
以天为统计周期,是常见需求.周报.月报更是常见需求.长周期项目,甚至有年报需求.我已经掌握了mysql中按天统计,如何实现按年.按月.按周统计呢? 1.已掌握的技能:按天统计实现以天为统计周期很简单 ...
【MySQL】事务隔离级别及ACID
注:begin或start transaction并不是一个事务的起点,而是在执行它们之后的第一个操作InnoDB表的语句,事务才真正开始.start transaction with consist ...
Windows突破远程连接最大数去掉限制登录
当对方设置最大连接数超过限制时可以用这个命令 win+r 输入 mstsc /v:192.168.18.131:3389 /console windows server 2003 sp2 以 ...
Scrapy 之如何发送post请求
import scrapy import json class PostSpider(scrapy.Spider): name = 'post' # allowed_domains = ['www.x ...
c# 保留两位小数点
保留两位小数点由于简单的原因大家直接看代码块. using System; namespace HelloWorld { class Program { static void Main(strin ...

DAGScheduler stage 划分算法

DAGScheduler stage 划分算法的更多相关文章

随机推荐

热门专题