Spark(六)【RDD的血缘依赖】

RDD依赖关系

1. RDD血缘关系

RDD只支持粗粒度转换，即在大量记录上执行的单个操作。将创建RDD的一系列Lineage（血统）记录下来，以便恢复丢失的分区。RDD的Lineage会记录RDD的元数据信息和转换行为，当该RDD的部分分区数据丢失时，它可以根据这些信息来重新运算和恢复丢失的数据分区。

查看RDD的血缘方法：rdd.toDebugString

示例

/**

 * @description: RDD血缘依赖

 * @author: HaoWu

 * @create: 2020年08月04日

 */

object DependeciedTest {

  def main(args: Array[String]): Unit = {

    val conf = new SparkConf().setAppName("RDDTest").setMaster("local[*]")

    val sc = new SparkContext(conf)

    val rdd1 = sc.makeRDD(List(1, 2, 3, 4)).map(x => x)

    println(rdd1.toDebugString)

    println("----------------------")

    val rdd2 = rdd1.map(x=>x)

    println(rdd2.toDebugString)

    println("----------------------")

    val rdd3 = rdd2.groupBy(x=>x)

    println(rdd3.toDebugString)

    println("----------------------")

    rdd3.collect()

  }

}

结果

(8) MapPartitionsRDD[1] at map at DependeciedTest.scala:15 []

 |  ParallelCollectionRDD[0] at makeRDD at DependeciedTest.scala:15 []

----------------------

(8) MapPartitionsRDD[2] at map at DependeciedTest.scala:18 []

 |  MapPartitionsRDD[1] at map at DependeciedTest.scala:15 []

 |  ParallelCollectionRDD[0] at makeRDD at DependeciedTest.scala:15 []

----------------------

(8) ShuffledRDD[4] at groupBy at DependeciedTest.scala:21 []

 +-(8) MapPartitionsRDD[3] at groupBy at DependeciedTest.scala:21 []

    |  MapPartitionsRDD[2] at map at DependeciedTest.scala:18 []

    |  MapPartitionsRDD[1] at map at DependeciedTest.scala:15 []

    |  ParallelCollectionRDD[0] at makeRDD at DependeciedTest.scala:15 []

----------------------

2. 依赖关系

依赖关系：当前RDD和和父RDD之间的依赖关系

查看依赖关系方法：rdd.dependencies

示例

/**

 * @description: RDD依赖关系

 * @author: HaoWu

 * @create: 2020年08月04日

 */

object DependeciedTest {

  def main(args: Array[String]): Unit = {

    val conf = new SparkConf().setAppName("RDDTest").setMaster("local[*]")

    val sc = new SparkContext(conf)

    val rdd1 = sc.makeRDD(List(1, 2, 3, 4))

    println(rdd1.dependencies)

    println("----------------------")

    val rdd2 = rdd1.map(x=>x)

    println(rdd2.dependencies)

    println("----------------------")

    val rdd3 = rdd2.groupBy(x=>x)

    println(rdd3.dependencies)

    println("----------------------")

    rdd3.collect()

  }

}

结果

//不依赖于任何RDD

List()

----------------------

// 1对1(1父1子)依赖  (窄依赖),窄依赖不会划分Stage

List(org.apache.spark.OneToOneDependency@1eaf1e62)

----------------------

//1对N（1父多子）依赖（宽依赖或shuffle依赖）,宽依赖会划分Stage

List(org.apache.spark.ShuffleDependency@5fad41be)

----------------------

3. RDD的宽窄依赖

窄依赖 (NarrowDependency)

每一个父RDD的Partition只能被子RDD的一个Partition使用，窄依赖我们形象的比喻为独生子女。
宽依赖 (ShuffleDependency)

同一个父RDD的Partition被多个子RDD的Partition依赖，会引起Shuffle，宽依赖我们形象的比喻为多生。

4.任务划分

RDD任务切分中间分为：Application、Job、Stage和Task

Application：初始化一个SparkContext即生成一个Application；
Job：一个Action算子就会生成一个Job；
Stage：Stage等于宽依赖(ShuffleDependency)的个数加1；
Task：一个Stage阶段中，最后一个RDD的分区个数就是Task的个数。

注意：Application->Job->Stage->Task每一层都是1对n的关系。

Spark(六)【RDD的血缘依赖】的更多相关文章

Spark核心RDD、什么是RDD、RDD的属性、创建RDD、RDD的依赖以及缓存、
1:什么是Spark的RDD??? RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变.可分区.里面的元素可并行 ...
Spark之RDD依赖关系及DAG逻辑视图
RDD依赖关系为成两种:窄依赖(Narrow Dependency).宽依赖(Shuffle Dependency).窄依赖表示每个父RDD中的Partition最多被子RDD的一个Partition ...
【Spark】RDD的依赖关系和缓存相关知识点
文章目录 RDD的依赖关系宽依赖窄依赖血统 RDD缓存概述缓存方式 RDD的依赖关系 RDD和它依赖的父RDD的关系有两种不同的类型,即窄依赖(narrow dependency) 和宽依赖 ...
Spark核心—RDD初探
本文目的最近在使用Spark进行数据清理的相关工作,初次使用Spark时,遇到了一些挑(da)战(ken).感觉需要记录点什么,才对得起自己.下面的内容主要是关于Spark核心-RDD的相关 ...
Spark之RDD本质
1.在一个完整的数据转换流程里往往涉及到多个具有衍生关系RDD,这些RDD其实是通过逻辑串联来利用装饰器模式层层包装扩展的的一堆对象,这些相邻RDD间必须有继承关系.并且比Java中的装饰器来的更彻底 ...
【Spark】RDD(Resilient Distributed Dataset)究竟是什么？
目录基本概念官方文档概述含义 RDD出现的原因五大属性以单词统计为例,一张图熟悉RDD当中的五大属性解构图 RDD弹性 RDD特点分区只读依赖缓存 checkpoint 基本概念 ...
Spark核心——RDD
Spark中最核心的概念为RDD(Resilient Distributed DataSets)中文为:弹性分布式数据集,RDD为对分布式内存对象的抽象它表示一个被分区不可变且能并行操作的数据集:R ...
关于Spark中RDD的设计的一些分析
RDD, Resilient Distributed Dataset,弹性分布式数据集, 是Spark的核心概念. 对于RDD的原理性的知识,可以参阅Resilient Distributed Dat ...
spark中RDD的转化操作和行动操作
本文主要是讲解spark里RDD的基础操作.RDD是spark特有的数据模型,谈到RDD就会提到什么弹性分布式数据集,什么有向无环图,本文暂时不去展开这些高深概念,在阅读本文时候,大家可以就把RDD当 ...

随机推荐

palindrome-partitioning-ii leetcode C++
Given a string s, partition s such that every substring of the partition is a palindrome. Return the ...
oracle修改CHARACTERSET
[oracle@vm10-84-32-2 ~]$ sqlplus / as sysdba SQL*Plus: Release 11.2.0.4.0 Production on Thu Jun 11 1 ...
telnet IP 端口的作用
测试远程服务器的端口是否开启
SpringCould | Nacos与Feign
服务注册Nacos 介绍概念一个更易于构建云原生应用的动态服务发现.配置管理和服务管理平台. Nacos: Dynamic Naming and Configuration Service Nac ...
Uncaught (in promise) Error: Request failed with status code 500解决方案
今天又学到一种修改bug的方法 : let newpwd = crypto.createHash('md5').update(req.body.upwd).digest('hex'); 在点击按钮加 ...
C++ substr 的两个用法
substr是C++语言函数,主要功能是复制子字符串,要求从指定位置开始,并具有指定的长度. basic_string substr(size_type _Off = 0,size_type _C ...
如何解决Redis缓存雪崩、缓存穿透
缓存雪崩数据未加载到缓存中,或者缓存同一时间大面积的失效,从而导致所有请求都去查数据库,导致数据库CPU和内存负载过高,甚至宕机. 比如一个雪崩的简单过程: 1.redis集群大面积故障 2.缓存失 ...
001.AD域控简介及使用
一 AD概述 1.1 AD简介域(Domain)是Windows网络中独立运行的单位,域之间相互访问则需要建立信任关系. 当一个域与其他域建立了信任关系后,2个域之间不但可以按需要相互进行管理,还可 ...
PHP高级特性-反射Reflection以及Factory工厂设计模式的结合使用[代码实例]
PHP高级特性-反射以及工厂设计模式的结合使用 [结合 Laravel-Admin 代码实例讲解] 利用反射来实现工厂模式的生产而无需创建特定的工厂类本文地址http://janrs.com/?p= ...
element ui tree回显 setCheckedNodes，setCheckedKeys，setChecked等函数报undefined问题
在写项目的时候,需要用到tree组件进行回显来进行权限控制: 在回显过程中使用回显函数会报报undefined, 这时只需要给该函数包裹一层nextTick方法就行了, 在回显过程中我们有可能使用半选 ...