Spark Streaming架构设计和运行机制总结

本期内容 :

Spark Streaming中的架构设计和运行机制
Spark Streaming深度思考

　　Spark Streaming的本质就是在RDD基础之上加上Time ，由Time不断的运行触发周而复始的接收数据及产生Job处理数据。

一、 ReceiverTracker ：

　　Receiver数据接收器的启动、接收数据过程中元数据管理，元数据管理是使用内部的RPC。

　　根据时间的间隔把数据分配给当前的BatchDuration ：

　　通过Dstreams中的StreamID以及这个DStreamID给这个时间段(getReceivedQueue(SteamID))的Block为例：

　　不断的分配是依赖定时器，看数据生成的时候怎么产生数据及通过他的方式管理数据的。

　　不断接收数据并保存起来，在BlockTracker启动Receiver时首先会启动StartReceiver 。

　　写数据时有不同的BlockHandler 。

　　Receiver自己的RPC ，响应不同的消息。

　　定时器按照具体的时间间隔：

二、 currentBuffer ：

　　把接收的数据保存在一个currentBuffer数据结构(属于临时数据结构)中，每次根据其时间间隔进行，每次都会New一下currentBuffer，默认是200MS。　

三、架构思考：

　　　从Spark Streaming的角度讲静态生成Dstreams，Dstreams当遇到时间的时候才会生成RDD和DStreamGenerator。

　　　基于DStreamGenerator就构成了这个依赖关系。调度层面讲JobScheduler，是基于时间的流处理框架。

　　根据BatchDuration的时钟不断循环，不断的发送消息。

　　以时间为基准不断的发送消息给event 。

　　生成作业：

　　Spark Streaming运行核心：

　　　　Spark RDD加上Time，无论是从概念还是数据接收、数据处理，Time是驱动力，不断的循环事件、消息，时间的确定、数据、RDD接着就转到Spark Core。

Spark Streaming架构设计和运行机制总结的更多相关文章

Spark Streaming揭秘 Day19 架构设计和运行机制
Spark Streaming揭秘 Day19 架构设计和运行机制今天主要讨论一些SparkStreaming设计的关键点,也算做个小结. DStream设计首先我们可以进行一个简单的理解:DSt ...
Spark Streaming揭秘 Day27 Job产生机制
Spark Streaming揭秘 Day27 Job产生机制今天主要讨论一个问题,就是除了DStream action以外,还有什么地方可以产生Job,这会有助于了解Spark Streaming ...
Spark Streaming揭秘 Day16 数据清理机制
Spark Streaming揭秘 Day16 数据清理机制今天主要来讲下Spark的数据清理机制,我们都知道,Spark是运行在jvm上的,虽然jvm本身就有对象的自动回收工作,但是,如果自己不进 ...
Spark Streaming 架构
图 1 Spark Streaming 架构图组件介绍: Network Input Tracker : 通过接收器接收流数据, 并将流数据映射为输入DSt ...
Qt之UI文件设计和运行机制
1.项目文件组成在QtCreator中新建一个WidgetApplocation项目,选中窗口基类中选中QWidget作为窗口基类,并选中"GnerateForm"复选框.创建后项 ...
宜信开源|分布式任务调度平台SIA-TASK的架构设计与运行流程
一.分布式任务调度的背景无论是互联网应用或者企业级应用,都充斥着大量的批处理任务.我们常常需要一些任务调度系统来帮助解决问题.随着微服务化架构的逐步演进,单体架构逐渐演变为分布式.微服务架构.在此背 ...
60、Spark Streaming：缓存与持久化机制、Checkpoint机制
一.缓存与持久化机制与RDD类似,Spark Streaming也可以让开发人员手动控制,将数据流中的数据持久化到内存中.对DStream调用persist()方法,就可以让Spark Stream ...
MySQL架构原理之运行机制
所谓运行机制即MySQL内部就如生产车间如何进行生产的.如下图: 1.建立连接,通过客户端/服务器通信协议与MySQL建立连接.MySQL客户端与服务端的通信方式是"半双工".对于 ...
2.Spark Streaming运行机制和架构
1 解密Spark Streaming运行机制上节课我们谈到了技术界的寻龙点穴.这就像过去的风水一样,每个领域都有自己的龙脉,Spark就是龙脉之所在,它的龙穴或者关键点就是SparkStreami ...

随机推荐

为maven插件设置参数的三种方法
很多的maven插件都提供了丰富的可选参数,用户可以通过设置特定的参数值来控制maven插件的行为.设置插件参数的方法主要有三种,分别是命令行设置,POM文件中为插件设置全局参数和POM文件中为插件设 ...
Linux运维入门到高级全套常用要点
Linux运维入门到高级全套常用要点目录 1. Linux 入门篇................................................................. ...
java分页问题
问题一:所有数据分页显示后点击下一页跳转到第二页后填写查询条件在点击查询按钮,分页出现问题(页码有问题) 默认没有从第一页开始显示解决方案:问题出在取的当前页有问题,把当前页设置为第一页(0), ...
Eplan简单教程
鉴于AUTOCAD画电路图比较繁琐而且手动添加关联参考错误率较高,而EPLAN画电路图确实效率要高许多,也更规范.过年正好有点时间,把我这段时间学EPLAN的一些经验总结了一下,有兴趣可以看看,也省得 ...
【OPENGL】第三篇着色器基础（二）
在这一小节,主要学习GLSL的基本数据类型以及控制结构.GLSL具备了C++和Java的很多特性,我们会先了解所有着色阶段共有的特性,再了解各个着色器的专属特性. 1.着色器的基本结构一个着色器程序 ...
pwnable echo1
最近忙的好久没有更新了,有空把之前拿来练手的CTF pwn题逐渐整理一下放出来题目是 linux 64位程序 ,流程很简单,大致思路就是先把一个跳转的机器指令写进name的地址,然后溢出覆盖eip, ...
[转]使用Maven添加依赖项时（Add Dependency）时，没有提示项目可用，并且在Console中，输出： Unable to update index for central|http://repo1.maven.org/maven2 。
使用Maven添加依赖项时(Add Dependency)时,没有提示项目可用,并且在Console中,输出: Unable to update index for central|http://re ...
io.sort.spill.percent调整
引言 MapReduce作出保证:进入每个Reducer的数据行都是有序的(根据数据行的键值进行排序).MapReduce将Mapper的输出进行排序并传递给Reducer作为输入的过程称为Shuff ...
VS高效开发快捷键
Ctrl + Tab 标签切换 Ctrl + '-'向后导航 Ctrl + Shift+'-'向前导航 Ctrl +Shift +空格提示函数参数 Ctrl +F4 退出本标签 Ctrl+F 查找 ...
CentOS 7下源码安装MySQL 5.6
本文转载,并非原创. 目录准备工作运行环境确认你的安装版本下载MySQL 安装MySQL 准备安装环境编译和安装配置MySQL 单实例配置单实例配置方法添加防火墙启动MySQL 重启 ...

Spark Streaming架构设计和运行机制总结

Spark Streaming架构设计和运行机制总结的更多相关文章

随机推荐

热门专题