021 RDD的依赖关系，以及造成的stage的划分

一：RDD的依赖关系

1.在代码中观察

　　val data = Array(1, 2, 3, 4, 5)
　　val distData = sc.parallelize(data)
　　val resultRDD = distData.flatMap(v => (1 to v)).map(v => (v%2,1)).reduceByKey(_+_)
　　resultRDD.toDebugString ## 查看RDD的依赖情况

2.解释

　　+—处表示，这是两个不同的stage

　　同时可以知道shuffledRDD依赖于MapPartitionRDD，MapPartitionRDD依赖于MapPartitionRDD，MapPartitionRDD依赖于ParalleCollectionRDD

　　[2]表示有两个分区

3.RDD依赖　　

　　lineage: 生命线
　　依赖于RDD之间的依赖，后续的RDD数据是从之前的RDD中获取
　　由于存在RDD的依赖，当一个后续的RDD执行失败的情况下(某个Task执行失败,eg：数据丢失)，可以从父RDD中重新执行
　　RDD依赖父RDD，依赖的父RDD可以有多个；

　　　　特例：第一个RDD是没有父RDD的
　　RDD的内部是由多个Partiiton构成的，所以RDD的依赖实质上就是RDD中Partition的依赖关系

4.依赖的情况

　　当前RDD中的每个分区的数据到下一个RDD都对应一个分区
　　　　即：一个分区的数据输出到下一个RDD的时候还是在同一个分区，也就是一对一
　　当前RDD中的多个分区的数据到下一个RDD的时候输出到同一个分区，当前RDD的中一个分区的数据到下一个RDD的时候输出到多个分区，也就是多对多

5.依赖分类

　　窄依赖：
　　　　子RDD中的每个分区的数据都来自于常数个父RDD的分区，而且父RDD每个分区的数据到子RDD的时候一定在一个分区中
　　　　不存在shuffle过程，所有操作在一起进行
　　宽依赖：
　　　　子RDD中的每个分区的数据都依赖所有父RDD的所有的分区数据，而且父RDD的每个分区的数据到子RDD的时候不一定在一个分区中
　　　　存在shuffle过程，需要等待上一个RDD的所有Task执行完成

　　注意点：

　　　　join有时候是宽依赖，有时候是窄依赖，这个要看分区数量会不会改变。

6.算子与依赖之间的关系

　　原本以为Transformation的算子是窄依赖，Action算子是宽依赖。

　　现在理解更深了一下，发现他们是两个概念，不要混淆。

二：stage的划分

1.Spark Application Job的Stage划分规则

　　RDD在调用transformation类型的函数时候形成DAG执行图(RDD的依赖)
　　RDD在调用action类型函数的时候会触发job的执行
　　在Driver中使用DAGScheduler对DAG图进行Stage的划分
　　　　从DAG图的最后一步(结果输出的那一步)往前推，如果发现API是宽依赖(ShuffledRDD), 就结束推断，将此时构成的DAG图称为一个Stage，然后继续往前推断，直到第一个RDD
　　　　====> Stage与Stage之间的分割是宽依赖

三：两种RDD依赖的复习

1.说明

　　主要是添加一个知识点。

　　什么情况下父RDD需要执行。

2.不是不执行

021 RDD的依赖关系，以及造成的stage的划分的更多相关文章

Spark RDD概念学习系列之RDD的依赖关系（宽依赖和窄依赖）（三）
RDD的依赖关系? RDD和它依赖的parent RDD(s)的关系有两种不同的类型,即窄依赖(narrow dependency)和宽依赖(wide dependency). 1)窄依赖指的是每 ...
RDD的依赖关系
RDD的依赖关系 Rdd之间的依赖关系通过rdd中的getDependencies来进行表示, 在提交job后,会通过在DAGShuduler.submitStage-->getMissingP ...
sparkRDD：第4节 RDD的依赖关系；第5节 RDD的缓存机制；第6节 DAG的生成
4. RDD的依赖关系 6.1 RDD的依赖 RDD和它依赖的父RDD的关系有两种不同的类型,即窄依赖(narrow dependency)和宽依赖(wide dependency ...
【Spark】RDD的依赖关系和缓存相关知识点
文章目录 RDD的依赖关系宽依赖窄依赖血统 RDD缓存概述缓存方式 RDD的依赖关系 RDD和它依赖的父RDD的关系有两种不同的类型,即窄依赖(narrow dependency) 和宽依赖 ...
大数据学习day23-----spark06--------1. Spark执行流程（知识补充：RDD的依赖关系）2. Repartition和coalesce算子的区别 3.触发多次actions时，速度不一样 4. RDD的深入理解（错误例子，RDD数据是如何获取的）5 购物的相关计算
1. Spark执行流程知识补充:RDD的依赖关系 RDD的依赖关系分为两类:窄依赖(Narrow Dependency)和宽依赖(Shuffle Dependency) (1)窄依赖窄依赖指的是 ...
Spark RDD概念学习系列之rdd的依赖关系彻底解密（十九）
本期内容: 1.RDD依赖关系的本质内幕 2.依赖关系下的数据流视图 3.经典的RDD依赖关系解析 4.RDD依赖关系源码内幕 1.RDD依赖关系的本质内幕由于RDD是粗粒度的操作数据集,每个Tra ...
Spark之RDD依赖关系及DAG逻辑视图
RDD依赖关系为成两种:窄依赖(Narrow Dependency).宽依赖(Shuffle Dependency).窄依赖表示每个父RDD中的Partition最多被子RDD的一个Partition ...
Spark-Core RDD依赖关系
scala> var rdd1 = sc.textFile("./words.txt") rdd1: org.apache.spark.rdd.RDD[String] = . ...
Spark RDD详解 | RDD特性、lineage、缓存、checkpoint、依赖关系
RDD(Resilient Distributed Datasets)弹性的分布式数据集,又称Spark core,它代表一个只读的.不可变.可分区,里面的元素可分布式并行计算的数据集. RDD是一个 ...

随机推荐

找第二大的数SQL-Second Highest Salary
1: 找小于最大的最大的 select max(Salary) from Employee where Salary<(select MAX(Salary) from Employee); 2. ...
static， const
static 静态的,类的静态成员函数,静态成员变量是和类相关的,但不和具体对象相关.即使没有具体对象,也能调用类的静态成员函数和成员变量.一般类的静态函数就是一个全局函数,只是作用域在包含它的文件中 ...
2017-2018-2 20155303『网络对抗技术』Exp4：恶意代码分析
2017-2018-2 20155303『网络对抗技术』Exp4:恶意代码分析 --------CONTENTS-------- 一.原理与实践说明 1.实践目标 2.实践内容概述 3.基础问题回答 ...
Struts局部异常与全局异常处理
aaarticlea/png;base64,iVBORw0KGgoAAAANSUhEUgAAAowAAAG3CAIAAACxBJNyAAAgAElEQVR4nOy9z6tk15Ymdv4B0eRU8O
Java注解之Retention、Documented、Target、Inherited介绍
先看代码,后面一个个来解析: @Retention(RetentionPolicy.RUNTIME) @Target(value = {ElementType.METHOD, ElementType. ...
python正则表达式一[转]
原文:http://blog.jobbole.com/74844/ 作为一个概念而言,正则表达式对于Python来说并不是独有的.但是,Python中的正则表达式在实际使用过程中还是有一些细小的差别. ...
MRPT 安装使用
1. 安装mrpt ( apt-get ) $ sudo apt-get install mrpt-apps libmrpt-dev 2. 下载mrpt-1.3 链接:https://github.c ...
内核中container_of宏的详细分析【转】
转自:http://blog.chinaunix.net/uid-30254565-id-5637597.html 内核中container_of宏的详细分析 16年2月28日09:00:37 内核中 ...
windows系统安装jdk并设置环境变量
CLASSPATH:JDK1.5之后的版本不需要配置.安装JDK 选择安装目录安装过程中会出现两次安装提示 .第一次是安装 jdk ,第二次是安装 jre .建议两个都安装在同一个java文件夹中的 ...
如何利用github打造个人博客专属域名（文字版本）
1. 前言此篇文章仅限于记录,不适合作为教程使用. 2. 步骤 2.1 先决条件有github账号,有个人域名(可在万网购买),电脑本地安装有git环境 2.2 在github新建仓库.例如我的g ...

021 RDD的依赖关系，以及造成的stage的划分

021 RDD的依赖关系，以及造成的stage的划分的更多相关文章

随机推荐

热门专题