通过案例对SparkStreaming透彻理解三板斧之二

本节课主要从以下二个方面来解密SparkStreaming：

一、解密SparkStreaming运行机制

二、解密SparkStreaming架构

SparkStreaming运行时更像SparkCore上的应用程序，SparkStreaming程序启动后会启动很多job，每个batchIntval、windowByKey的job、框架运行启动的job。例如，Receiver启动时也启动了job，此job为其他job服务，所以需要做复杂的spark程序，往往多个job之间互相配合。SparkStreaming是最复杂的应用程序，如果对SparkStreaming了如指掌的话，做其他的Spark应用程序没有任何问题。看下官网：Spark sql，SparkStreaming，Spark ml，Spark graphx子框架都是后面开发出来的，我们要洞悉Spark Core 的话，SparkStreaming是最好的切入方式。

进入Spark官网，可以看到SparkCore和其他子框架的关系：

SparkStreaming启动后，数据不断通过inputStream流进来，根据时间划分成不同的job、就是batchs of input data，每个job有一序列rdd的依赖。Rdd的依赖有输入的数据，所以这里就是不同的rdd依赖构成的batch，这些batch是不同的job，根据spark引擎来得出一个个结果。DStream是逻辑级别的，而RDD是物理级别的。DStream是随着时间的流动内部将集合封装RDD。对DStream的操作，转过来是对其内部的RDD操作。

我是使用SparkCore 编程都是基于rdd编程，rdd间有依赖关系，如下图右侧的依赖关系图，SparkStreaming运行时，根据时间为维度不断的运行。Rdd的dag依赖是空间维度，而DStream在rdd的基础上加上了时间维度，所以构成了SparkStreaming的时空维度。

SparkStreaming在rdd的基础上增加了时间维度，运行时可以清晰看到jobscheduler、mappartitionrdd、shuffledrdd、blockmaanager等等，这些都是SparkCore的内容，而DStream、jobgenerator、socketInputDstream等等都是SparkStreaming的内容，如下图运行过程可以很清晰的看到：

现在通过SparkStreaming的时空维度来细致说明SparkStreaming运行机制

时间维度：按照固定时间间隔不断地产生job对象，并在集群上运行：

　　　　　包含有batch interval,窗口长度，窗口滑动时间等

空间维度：代表的是RDD的依赖关系构成的具体的处理逻辑的步骤，是用DStream来表示的：

　　　　1、需要RDD,DAG的生成模板

　　　　2、TimeLine的job控制器、

　　　　3、InputStream和outputstream代表的数据输入输出

　　　　4、具体Job运行在Spark Cluster之上，此时系统容错就至关重要

　　　　5、事务处理，在处理出现奔溃的情况下保证Exactly once的事务语义一致性

随着时间的流动，基于DStream Graph不断生成RDD Graph,也就是DAG的方式生成job,并通过Job Scheduler的线程池的方式提交给Spark Cluster不断的执行，

由上图可知，RDD 与 DStream之间的关系如下：

　　1、RDD是物理级别的，而 DStream 是逻辑级别的；

　　2、DStream是RDD的封装模板类，是RDD进一步的抽象；

　　3、DStream要依赖RDD进行具体的数据计算；

Spark Streaming源码解析

1、StreamingContext方法中调用JobScheduler的start方法：

　　val ssc = new StreamingContext(conf, Seconds(5))

　　val lines = ssc.socketTextStream("Master", 9999)

　　......//业务处理代码略

　　ssc.start()
　　ssc.awaitTermination()

我们进入JobScheduler start方法的内部继续分析：

1、JobScheduler 通过onReceive方法接收各种消息并存入enventLoop消息循环体中。

2、通过rateController对流入SparkStreaming的数据进行限流控制。

3、在JobScheduler的start内部会构造JobGenerator和ReceiverTacker，并且调用JobGenerator和ReceiverTacker的start方法。

ReceiverTacker的启动方法：

1、ReceiverTracker启动后会创建ReceiverTrackerEndpoint这个消息循环体，来接收运行在Executor上的Receiver发送过来的消息。

2、ReceiverTracker启动后会在Spark Cluster中启动executor中的Receivers。

JobGenerator的启动方法：

1、JobGenerator启动后会启动以batchInterval时间间隔发送GenerateJobs消息的定时器

Spark发行版笔记2

新浪微博：http://weibo.com/ilovepains

微信公众号：DT_Spark

博客：http://blog.sina.com.cn/ilovepains

手机：18610086859

QQ：1740415547

邮箱：18610086859@vip.126.com

通过案例对SparkStreaming透彻理解三板斧之二的更多相关文章

通过案例对SparkStreaming透彻理解三板斧之一
本节课通过二个部分阐述SparkStreaming的理解: 一.解密SparkStreaming另类在线实验二.瞬间理解SparkStreaming本质 Spark源码定制班主要是自己做发行版.自己 ...
通过案例对SparkStreaming透彻理解三板斧之三
本课将从二方面阐述: 一.解密SparkStreaming Job架构和运行机制二.解密SparkStreaming容错架构和运行机制一切不能进行实时流处理的数据都将是无效的数据.在流处理时代,S ...
通过案例对 spark streaming 透彻理解三板斧之二：spark streaming运行机制
本期内容: 1. Spark Streaming架构 2. Spark Streaming运行机制 Spark大数据分析框架的核心部件: spark Core.spark Streaming流计算. ...
通过案例对 spark streaming 透彻理解三板斧之一： spark streaming 另类实验
本期内容 : spark streaming另类在线实验瞬间理解spark streaming本质一．我们最开始将从Spark Streaming入手为何从Spark Streaming切入 ...
通过案例对 spark streaming 透彻理解三板斧之三：spark streaming运行机制与架构
本期内容: 1. Spark Streaming Job架构与运行机制 2. Spark Streaming 容错架构与运行机制事实上时间是不存在的,是由人的感官系统感觉时间的存在而已,是一种虚幻的 ...
回调函数透彻理解Java
http://blog.csdn.net/allen_zhao_2012/article/details/8056665 回调函数透彻理解Java 标签: classjavastringinterfa ...
透彻理解Spring事务设计思想之手写实现
前言事务,是描述一组操作的抽象,比如对数据库的一组操作,要么全部成功,要么全部失败.事务具有4个特性:Atomicity(原子性),Consistency(一致性),Isolation(隔离性),D ...
透彻理解Spring事务设计思想之手写实现（山东数漫江湖）
前言事务,是描述一组操作的抽象,比如对数据库的一组操作,要么全部成功,要么全部失败.事务具有4个特性:Atomicity(原子性),Consistency(一致性),Isolation(隔离性),D ...
如何理解CPU上下文切换(二)
如何理解CPU上下文切换(二) 1.引你们好,可爱的小伙伴们.^_^ 多个进程竞争CPU就是一个经常被我们忽视的问题. 你们一定很好奇,进程在竞争CPU的时候并没有真正运行,为什么还会导致系统的负载 ...

随机推荐

Swift 闭包(六)
http://blog.csdn.net/huangchentao/article/details/32714185 闭包 Closures 1.闭包表达式闭包表达式是一种利用简单语法构建内联包的方 ...
Linux下git源码安装【转】
转自:http://blog.csdn.net/u012889638/article/details/51167123 版权声明:本文为博主原创文章,未经博主允许不得转载. 版本信息:CentOS r ...
Windows+Git+TortoiseGit+COPSSH安装图文教程【转】
转自:http://blog.csdn.net/aaron_luchen/article/details/10498181/ Windows+Git+TortoiseGit+COPSSH 安装图文教程 ...
Linux内核学习之中断中断本质【转】
转自:http://www.linuxidc.com/Linux/2011-11/47657.htm [中断概述] 中断本质上是一种特殊的电信号,由硬件设备发向处理器.异常和中断的不同是异常在产生时必 ...
TortoiseSVN安装使用【转】
转自:http://www.cnblogs.com/rushoooooo/archive/2011/04/29/2032346.html TortoiseSVN是windows平台下Subversio ...
Page.Response.Buffer与Response.Redirect一起用报错“无法在发送 HTTP 标头之后进行重定向”
Page.Response.Buffer与Response.Redirect一起用报错“无法在发送 HTTP 标头之后进行重定向” 原因还未知..
多个springboot项目部署在同一tomcat上，出现jmx错误
多个springboot项目部署在同一tomcat上,出现jmx错误原因:因为jmx某些东西重复,禁用jmx就可以了 endpoints.jmx.unique-names=true
【SQL】数据库更新
1.插入 INSERT INTO R(A1,A2,...An) VALUES(v1, v2, ...,vn) 如果插入了所有属性,并且按照定义的顺序给出,可以省略(A1,A2,...An) 可以只插入 ...
node.js的全局变量的注意
在node.js中,如果一个变量没有用var来声明,就会变为全局变量: 看如下代码: 1)6.js function myadd(a) { return a+abc; } function conta ...
css深入理解之border
1. border-width border-width不支持百分比,类似的还有outline,box-shadow,text-shadow等 border-width支持关键字:thin(1px, ...

通过案例对SparkStreaming透彻理解三板斧之二

通过案例对SparkStreaming透彻理解三板斧之二的更多相关文章

随机推荐

热门专题