Spark Streaming揭秘 Day8 RDD生命周期研究

哎哟慰 2024-09-09 23:27:22 原文

Spark Streaming揭秘 Day8

RDD生命周期研究

今天让我们进一步深入SparkStreaming中RDD的运行机制。从完整的生命周期角度来说，有三个问题是需要解决的：

RDD到底是怎么生成的
具体执行的时候和Spark Core上的执行有所不同
运行之后对RDD如何处理，怎么对已有的RDD进行管理

今天主要聚焦于第一个问题。

从DStream开始

DStream类的注释很明确的说明了，DStream中包含以下内容：

DStream依赖的其他DStream(第一个DStream是外部数据源产生)
DStream产生RDD的时间间隔
产生RDD所使用到的方法*

可以看到，这里很明确说明了RDD的生成是在DStream中触发的。

关键方法

通过上一课的分析，我们可以知道JobScheduler是通过generateJob这个方法来与DStream交互的。

其中的关键是getOrCompute方法，再进一步分析此方法

其中调用了compute方法，而注释中也说明了，每个DStream都会通过compute方法生成RDD!!!

compute会由各个子类来进行实现，我们找一个常用的MappedDStream看一下。

通过这个代码，我们可以发现两点：

compute方法中实现了map这个方法的业务逻辑
compute方法会调用parent的getOrCompute

这说明了，RDD从后往前依赖，可以进行回溯，这也解释了为什么在JobScheduler中仅仅是对outputStream进行处理的原因。

RDD生成的完整过程

下面引用一张图将上面的说明进行一下串联：

在各个DStream中，都实现了getOrCompute方法，在数据未缓存的情况下，会调用compute方法向上追溯到DStream的源头，并将结果逐层向下传递，从而实现了完整的业务处理。

小结

我们会发现，对DStream的所有操作，其实都是作用在RDD上的Transformation操作，只是要加上一个时间维度。统一通过outputStreams的generateJob方法来触发实际的action调用，而处理逻辑和依赖关系，都封装在了DStream内部实现，充分体现了模块的自治性，非常值得借鉴。

欲知后事如何，且听下回分解

DT大数据每天晚上20：00YY频道现场授课频道68917580

Spark Streaming揭秘 Day8 RDD生命周期研究的更多相关文章

Spark Streaming揭秘 Day10 从BlockGenerator看接收数据的生命周期
Spark Streaming揭秘 Day10 从BlockGenerator看接收数据的生命周期昨天主要介绍了SparkStreaming中对于Receiver的生命周期管理,下面让我们进入到Re ...
Spark Streaming揭秘 Day18 空RDD判断及程序中止机制
Spark Streaming揭秘 Day18 空RDD判断及程序中止机制空RDD的处理从API我们可以知道在SparkStreaming中,对于RDD的操作一般都是在foreachRDD和Tra ...
Spark Streaming揭秘 Day16 数据清理机制
Spark Streaming揭秘 Day16 数据清理机制今天主要来讲下Spark的数据清理机制,我们都知道,Spark是运行在jvm上的,虽然jvm本身就有对象的自动回收工作,但是,如果自己不进 ...
Spark Streaming揭秘 Day19 架构设计和运行机制
Spark Streaming揭秘 Day19 架构设计和运行机制今天主要讨论一些SparkStreaming设计的关键点,也算做个小结. DStream设计首先我们可以进行一个简单的理解:DSt ...
Spark Streaming揭秘 Day9 从Receiver的设计到Spark框架的扩展
Spark Streaming揭秘 Day9 从Receiver的设计到Spark框架的扩展 Receiver是SparkStreaming的输入数据来源,从对Receiver整个生命周期的设计,我们 ...
Spark Streaming揭秘 Day17 资源动态分配
Spark Streaming揭秘 Day17 资源动态分配今天,让我们研究一下一个在Spark中非常重要的特性:资源动态分配. 为什么要动态分配?于Spark不断运行,对资源也有不小的消耗,在默认 ...
Spark Streaming揭秘 Day14 State状态管理
Spark Streaming揭秘 Day14 State状态管理今天让我们进入下SparkStreaming的一个非常好用的功能,也就State相关的操作.State是SparkStreaming ...
Spark Streaming揭秘 Day11 Receiver Tracker的具体实现
Spark Streaming揭秘 Day11 Receiver Tracker的具体实现 ReceiverTracker是运行在Driver上Receiver管理程序,今天让我们深入学习一下. 核心 ...
Spark Streaming揭秘 Day5 初步贯通源码
Spark Streaming揭秘 Day5 初步贯通源码引子今天,让我们从Spark Streaming最重要的三个环节出发,让我们通过走读,逐步贯通源码,还记得Day1提到的三个谜团么,让我们 ...

随机推荐

Android检测是否安装了指定应用
检测是否安装了指定应用的方法如下: private boolean isAvilible( Context context, String packageName ) { final PackageM ...
IOS应用程序多语言本地化解决方案
最近要对一款游戏进行多语言本地化,在网上找了一些方案,加上自己的一点点想法整理出一套方案和大家分享! 多语言在应用程序中一般有两种做法:一.程序中提供给用户自己选择的机会:二.根据当前用户当前移动设备 ...
envi5.1下载地址
ENVI 5.1 installer 32 bit :链接: http://pan.baidu.com/s/1c0EGZIw 密码: gcogENVI 5.1 Installer 64 bit :链接 ...
android开发之路13（实际开发常见问题及解决办法ING）
1.DDMS下无法浏览SDcard? 在做音乐播放器的时候,想通过eclipse中的DDMS视图将音频文件push到sd卡中,发现总是报错 :Failed to push selection: Rea ...
mount: can't find cdrom in /etc /fstab or /etc/mtab
我用的linux操作系统类别是CentOS-6.5 首先在虚拟机选项的设置里设置CD/DVD选项其中勾选Connect at power on选项在连接中选择Use ISO image file:即 ...
java 网络编程-tcp/udp
--转自:http://blog.csdn.net/nyzhl/article/details/1705039 直接把代码写在这里,解释看这里吧:http://blog.csdn.net/nyzhl/ ...
怎么删除远程登录连接的ip
通过远程桌面可以登录到远程电脑上进行相应的操作,在登录过后会在本地电脑上留下登录过的IP以及登录用户名相关信息,可能会给远程的电脑带来安全隐患,下面介绍一下清除远程桌面历史记录的方法. 1.删除我的文 ...
Mysql学习笔记之常用数据类型（转）
http://www.cnblogs.com/doit8791/archive/2012/05/11/2495319.html 数据类型是定义列中可以存储什么数据以及该数据实际怎么存储的基本规则.My ...
回溯（UVA129）
POINT: 如何判断是否包含连续重复子串? 判断当前串的后缀啦~~~ You have been employed by the organisers of a Super Krypton ...
模板引擎逻辑语句处理之对单层for循环的处理
先上代码 private function moldforExt(){//模板单层For循环处理 $SQL=$this->sql_obj; $URL=$this->url_obj; req ...