Spark Streaming源码解读之No Receivers彻底思考

本期内容 :

Direct Acess
Kafka

　　Spark Streaming接收数据现在支持的两种方式：

　　01、 Receiver的方式来接收数据，及输入数据的控制

　　02、 No Receiver的方式

　　以上两种方式中，No Receiver的方式更符合读取、操作数据的思路，Spark作为一个计算框架他的底层有数据来源，也就是直接操作数据来源中的数据，

　　如果操作数据来源的话肯定需要一个封装器，这个封装的类型一定是RDD的封装类型，Spark Streaming为了封装类型推出了自定义的RDD是KafkaRDD。

一、 No Receivers: 　　

　　基于Spark Streaming的Bach-Oriented接口是在Kafka消费数据的一个实现，实现需要确定开始与结束的Offset(数据偏移量)，Broker是Kafka中的概念，

　　也就是Spark Streaming直接去操作Kafka中的数据。

　　在ForEachRDD中可以获取OffsetRanges中产生所有分区的数据，即对源数据的控制。

封装了一个与Kafka的交互而已。

二、 DirectKafkaInPutDStreams ：

　　在实际运行的时候会产生KafkaRDD ,不同的Topic对应不同生成的Partition ，RatePerPartition控制了每秒所能够消费数据的速度，交互接口是KafkaCluster

　KafkaRDD本身包含很多Partition ，他有多少Partition就对应多少KafkaPartition

作为一个KafkaPartition 核心的方法就是消费多少数据，而且KafkaRDD的一个Partition只能属于一个Topic的，其实一般就是直接消费了一个Kafka的Topic

是从KafkaRDD的角度看，下一步就是读取数据。

直接抓Kafka数据的方式与Receiver的方式的实际价值 :

　　1、 Direct的方式读取数据，因为Direct是没有缓存的，也就是不存在内存溢出等问题，

　　2、使用Receiver的方式去读取数据是存在缓存问题

　　2、使用Direct的方式，KafkaRDD默认数据就是分布在多个Executor ，KafkaRDD默认就是分布式的

　　3、使用Receiver的方式，默认情况下是和具体的Worker的Executor绑定了，Receiver方式是不方便做分布式，但是需要配置才可以做分布式的

　　4、如果是Direct方式是直接读取Kafka数据，Dream多少次都无所谓，如果Dream就不会再进行下一步的处理了

　　5、使用Receiver方式，如果数据来不及处理，也就是数据操作Dream，如果操作多次Spark程序可能程序崩溃

Spark Streaming源码解读之No Receivers彻底思考的更多相关文章

15、Spark Streaming源码解读之No Receivers彻底思考
在前几期文章里讲了带Receiver的Spark Streaming 应用的相关源码解读,但是现在开发Spark Streaming的应用越来越多的采用No Receivers(Direct Appr ...
Spark Streaming源码解读之JobScheduler内幕实现和深度思考
本期内容 : JobScheduler内幕实现 JobScheduler深度思考 JobScheduler 是整个Spark Streaming调度的核心,需要设置多线程,一条用于接收数据不断的循环, ...
Spark Streaming源码解读之流数据不断接收和全生命周期彻底研究和思考
本节的主要内容: 一.数据接受架构和设计模式二.接受数据的源码解读 Spark Streaming不断持续的接收数据,具有Receiver的Spark 应用程序的考虑. Receiver和Drive ...
11.Spark Streaming源码解读之Driver中的ReceiverTracker架构设计以及具体实现彻底研究
上篇文章详细解析了Receiver不断接收数据的过程,在Receiver接收数据的过程中会将数据的元信息发送给ReceiverTracker: 本文将详细解析ReceiverTracker的的架构 ...
Spark Streaming源码解读之流数据不断接收全生命周期彻底研究和思考
本期内容 : 数据接收架构设计模式数据接收源码彻底研究一.Spark Streaming数据接收设计模式 Spark Streaming接收数据也相似MVC架构: 1. Mode相当于Rece ...
Spark Streaming源码解读之Receiver生成全生命周期彻底研究和思考
本期内容 : Receiver启动的方式设想 Receiver启动源码彻底分析多个输入源输入启动,Receiver启动失败,只要我们的集群存在就希望Receiver启动成功,运行过程中基于每个Tea ...
Spark Streaming源码解读之生成全生命周期彻底研究与思考
本期内容 : DStream与RDD关系彻底研究 Streaming中RDD的生成彻底研究问题的提出 : 1. RDD是怎么生成的,依靠什么生成 2.执行时是否与Spark Core上的RDD执行有 ...
Spark Streaming源码解读之Job动态生成和深度思考
本期内容 : Spark Streaming Job生成深度思考 Spark Streaming Job生成源码解析 Spark Core中的Job就是一个运行的作业,就是具体做的某一件事,这里的JO ...
16.Spark Streaming源码解读之数据清理机制解析
原创文章,转载请注明:转载自听风居士博客(http://www.cnblogs.com/zhouyf/) 本期内容: 一.Spark Streaming 数据清理总览二.Spark Streami ...

随机推荐

Eclipse
001.自动注释 window--preferences--java--codeStyle--codeTemplate--comments //Types: /** *@author ${user} ...
威纶触摸屏和三菱PLC3S之间的通信设置
触摸屏软件中: PLC型号:FX3U\FX3G 接口类型:RS-485 4W 端口:COM2(19200,E,7,1)
2016HUAS_ACM暑假集训4M - 基础DP
简单的0-1背包问题,大家都会做的.题意不想解释太多. 简述题目的案例及以几个关键 Sample Input 1 //测试组数T 5 10 ...
Git简易教程
概述在说明什么是git之前,我们需要对版本控制(Version Control)做一个基本的概述,一般情况下,我们的源代码都是在时间和空间两个维度上进行管理并维护的,代码本身以及组织代码的项目文件( ...
Struts2 之对xwork的理解
对象的生命周期的管理是面向对象编程亘古不变的话题,从syntax的角度,面向对象的高级编程语言都是以“对象”为核心,而对象之间的继承关系.嵌套引用关系构成的对象树结构为我们进行对象级别的逻辑操作提供了 ...
asmlib
http://pandarabbit.blog.163.com/blog/static/209284144201292293642857/ centos6.5桌面2.6.32yum install k ...
Android日常开发总结的技术经验60条转
1. 全部Activity可继承自BaseActivity,便于统一风格与处理公共事件,构建对话框统一构建器的建立,万一需要整体变动,一处修改到处有效. 2. 数据库表段字段常量和SQL逻辑分离,更清 ...
STM32固件库3.5+uCOS2.86移植（转自暴走的工程师）
考了很多移植的资料和代码,终于移植好了...应该是完美移植吧~~哈哈哈~~ 编译环境是IAR 工程适用于STM32F10X大容量产品,如果不是,请自行修改启动文件和工程配置编译器优化等级最高...这 ...
tomcat架构分析 (Session管理)
Session管理是JavaEE容器比较重要的一部分,在app中也经常会用到.在开发app时,我们只是获取一个session,然后向session中存取数据,然后再销毁session.那么如何产生se ...
java byte&0xFF
做串口端口通讯时,数据都是以byte类型发送的普通的byte范围是-128-127,而java的byte范围是0-255 因此将数据的byte转成java的byte时,需要与0xff(1111111 ...

Spark Streaming源码解读之No Receivers彻底思考

Spark Streaming源码解读之No Receivers彻底思考的更多相关文章

随机推荐

热门专题