Spark Streaming源码解读之生成全生命周期彻底研究与思考

本期内容 :

DStream与RDD关系彻底研究
Streaming中RDD的生成彻底研究

　　问题的提出：

　　1、 RDD是怎么生成的，依靠什么生成

　　2、执行时是否与Spark Core上的RDD执行有什么不同的

　　3、运行之后我们要怎么处理

　　　　为什么有第三点 : 是因为Spark Streaming 中会随着相关触发条件，窗口Window滑动的时候都会不断的产生RDD ，

　　从最基本的层次考虑，RDD也是基本对象，每秒会产生RDD ,内存能不能完全容纳，每个处理完成后怎么进行管理？

一、整个Spark Streaming操作的InPutDStream的流程源码

　　ForEachDStreams的产生有两种方式 :

　　1、一种是DStreams 的Action，这是作业的产生且执行

　　2、 ForEachRDD也会产生ForEachDStreams，如果在ForEachRDD中没有Action级别的操作的话是不会执行作业的，

　　ForEachDStreams 不一定会触发Job的执行，但是一定会触发Job的产生，这句话是假的，因为是需要定时器Time与业务逻辑代码来产生的

　　ForEachDStreams 与Job的关系：

　　1、 ForEachDStreams 与Job是否执行实际上是没有什么关系的，不一定触发Job的执行

　　2、有ForEachDStreams的时候会产生Job ，这句话是假的，在没有ForEachDStreams的时候也会继续产生Job

　　Job的产生与业务逻辑代码没有什么关系，只是跟框架的调度，框架的定时器时间到了就会产生Job

　　ForEachRDD是Spark RDD的后门，因为其是直接对RDD进行操作，但是背后还是封装成了ForEachStream，实际上在流处理中直接对RDD进行操作，但是本身还是产生了DStreams，在这个Spark Streaming的逻辑操作中，我们看到的都是对DStreams进行操作，其实就是对DStreams进行操作就是对RDD进行操作，DStreams就是RDD的一套模板，后面的DStreams对前面的DStreams有依赖。

　　为什么说后面的DStreams对前面的DStreams有依赖呢？源码如下：

　　DStreams依赖以其它的DStreams ，除了第一个DStreams ，因为其是数据源产生的。

　　基于DStreams是怎么产生RDD ,是时间Time通过函数来产生的RDD ，是RDD的模板。

　　要研究RDD到底是怎么生成的，查看整个DStreams的操作，肯定有地方触发使RDD的生成，根据源码的路径跟踪RDD到底是怎么生成的？

　　RDD的生命周期： 均是后面依赖前面，每一步都会产生DStreams实例，DStreams是RDD的模板

　　为什么DStreams是从后面依赖前面的呢？ DStreams必须是后往前依赖，有三点目的:

　　1、是代表Spark Streaming级别的业务逻辑操作

　　2、目的是根据这个生成RDD ,而RDD就是从后往前依赖的

　　3、 DStreams是lazy级别的，lazy级别是从后往前依赖奠定了基础

　　最重要的原因是第二点，DStreams的依赖必须要与RDD的依赖保持高度的一致，因为要根据时间间隔去生成RDD

　　流程总结 :

　　　　从产生级别理解，每一个RDD都对应一个Job ，就是DStreams操作的最后的一个RDD ,最后的RDD对前面有依赖关系，只要有最后一个RDD就可以推导出所有的RDD

　　每一个DStreams的实例都有一个GeneratedRDD ，都有HashMap ，实际上执行的时候我们只需要关注最后一个，实际计算时就是从后往前推。

　　逻辑级别：有一个又一个的DStreams对象，通过Map等操作都会产生DStreams对象，DStreams模板会随着时间的推移会产生一系列的RDD ,随着时间实例的推移，有时间注入就会产生RDD。

　　实际执行 : Spark STreaming操作就看最后一个DStreams ，从后往前找出RDD的依赖关系，相当于一个矩阵，加上时空维度。

　　GeneratdRDD是怎么获取的 :

　　DStream里面有个GetorCompute方法，就是根据时间生成RDD ，可能是缓冲级别获取的，或者计算出来的。

　　如果没有依赖就必将是自力更生：

　　Map的DStreams ，是有依赖的，GetOrCompute产生RDD ,看到很多DStreams其实就是一个DStreams ，DStreams是逻辑级别的呈现，都是从后往前推.

　　Map会对RDD进行操作，DStreams里面的计算其实就是对RDD进行计算。

　　GetOrCompute返回的是RDD ,还有一个就是ForEachDStreams :

　　GenerateJob是通过调度器控制的 :

　GenerateJob会去调用DStreams ，然后会调度到GenerateJob :

Spark Streaming源码解读之生成全生命周期彻底研究与思考的更多相关文章

Spark Streaming源码解读之Receiver生成全生命周期彻底研究和思考
本期内容 : Receiver启动的方式设想 Receiver启动源码彻底分析多个输入源输入启动,Receiver启动失败,只要我们的集群存在就希望Receiver启动成功,运行过程中基于每个Tea ...
Spark Streaming源码解读之JobScheduler内幕实现和深度思考
本期内容 : JobScheduler内幕实现 JobScheduler深度思考 JobScheduler 是整个Spark Streaming调度的核心,需要设置多线程,一条用于接收数据不断的循环, ...
Spark Streaming源码解读之流数据不断接收和全生命周期彻底研究和思考
本节的主要内容: 一.数据接受架构和设计模式二.接受数据的源码解读 Spark Streaming不断持续的接收数据,具有Receiver的Spark 应用程序的考虑. Receiver和Drive ...
15、Spark Streaming源码解读之No Receivers彻底思考
在前几期文章里讲了带Receiver的Spark Streaming 应用的相关源码解读,但是现在开发Spark Streaming的应用越来越多的采用No Receivers(Direct Appr ...
Spark Streaming源码解读之流数据不断接收全生命周期彻底研究和思考
本期内容 : 数据接收架构设计模式数据接收源码彻底研究一.Spark Streaming数据接收设计模式 Spark Streaming接收数据也相似MVC架构: 1. Mode相当于Rece ...
Spark Streaming源码解读之Job动态生成和深度思考
本期内容 : Spark Streaming Job生成深度思考 Spark Streaming Job生成源码解析 Spark Core中的Job就是一个运行的作业,就是具体做的某一件事,这里的JO ...
16.Spark Streaming源码解读之数据清理机制解析
原创文章,转载请注明:转载自听风居士博客(http://www.cnblogs.com/zhouyf/) 本期内容: 一.Spark Streaming 数据清理总览二.Spark Streami ...
11.Spark Streaming源码解读之Driver中的ReceiverTracker架构设计以及具体实现彻底研究
上篇文章详细解析了Receiver不断接收数据的过程,在Receiver接收数据的过程中会将数据的元信息发送给ReceiverTracker: 本文将详细解析ReceiverTracker的的架构 ...
14：Spark Streaming源码解读之State管理之updateStateByKey和mapWithState解密
首先简单解释一下)) //要使用updateStateByKey方法,必须设置Checkpoint. ssc.checkpoint("/checkpoint/") val sock ...

随机推荐

探索javascript----有关数组的常用方法
与字符串的转换: str.split(","):将一个字符串以为英文逗号分割,返回一个数组: arr.join(","):返回用指定分隔符间隔的含所有数组元素的 ...
SPOJ BALNUM
一开始题看错了...dp[pos][sets][viss],其中sets表示出现次数,viss表示出现没有. #include<iostream> #include<cstdio&g ...
js 轮播图代码
js代码 (function(){ /** parent //父容器 changeTime //每次间隔几秒切换下一条 leaveTime //鼠标从小图上离开过后几秒继续切换 index //从第几 ...
不让padding影响元素的宽度
CSS3 新增了 box-sizing 属性. 以前,如果指定 div 的宽度为 div { width: 100px; height: 100px; padding: 10px; } 则包含 pad ...
LintCode Reverse LinkedList (ArrayList 和 LinkedList 的区别)
1. ArrayList 和 LinkedList 的区别 http://pengcqu.iteye.com/blog/502676 2. How to reverse LinkedList http ...
SCRUM项目 5.0
5.0--------------------------------------------------- 1.团队成员完成自己认领的任务. 2.燃尽图:理解.设计并画出本次Sprint的燃尽图的理 ...
lua学习记录
1.八种数据类型:number,string,boolean,nil,function,table,协程,自定义类型空字符串和数字0是真,false和nil为假2.lua是动态语言,每个变量携带自己 ...
C#访问非托管内存
示例1:分配一个新的内存地址给新变量 Point p; // Initialize unmanged memory to hold the struct. IntPtr pnt = Marshal.A ...
Knockoutjs实例 - 属性绑定(Bindings)之流程控制(Control flow)
一.foreach binding 使用此功能可以方便我们循环遍历输出某个数组.集合中的内容. (1).循环遍历输出数组 View Row Code 1 <script type="t ...
Oracle警告、跟踪文件（10046、死锁等跟踪）
跟踪文件由各个后台进程生成,警报日志中记录关键操作包括: ·所有启动和关闭命令,包括中间命令,如alter database mount ·实例的所有内部错误(ORA-600错误,只能 ...

Spark Streaming源码解读之生成全生命周期彻底研究与思考

Spark Streaming源码解读之生成全生命周期彻底研究与思考的更多相关文章

随机推荐

热门专题