spark streaming集成kafka接收数据的方式

spark streaming是以batch的方式来消费，strom是准实时一条一条的消费。当然也可以使用trident和tick的方式来实现batch消费(官方叫做mini batch)。效率嘛，有待验证。不过这两种方式都是先把数据从kafka中读取出来，然后缓存在内存或者第三方，再定时处理。如果这时候集群退出，而偏移量又没处理好的话，数据就丢掉了。

而spark streaming提供了两种获取方式，一种是同storm一样，实时读取缓存到内存中;另一种是定时批量读取。

这两种方式分别是：

_{Receiver-base}

_Direct

下面分别介绍两种方式的实现

_{Receiver-base}

spark streaming启动过后，会选择一台excetor作为ReceiverSupervior

1:Reciver的父级ReciverTracker分发多个job(task)到不同的executor，并启动ReciverSupervisor.

2:ReceiverSupervior会启动对应的实例reciver(kafkareciver,TwitterReceiver),并调用onstart()

3:kafkareciver在通过onstart()启动后就开启线程源源不断的接收数据，并交给ReceiverSupervior，通过ReceiverSupervior.store函数一条一条接收

4:ReceiverSupervior会调用BlockGenertor.adddata填充数据。

所有的中间数据都缓存在BlockGenertor

1:首先BlockGenertor维护了一个缓冲区，currentbuffer，一个无限长度的arraybuffer。为了防止内存撑爆，这个currentbuffer的大小可以被限制，通过设置参数spark.streaming.reciver.maxRate,以秒为单位。currentbuffer所使用的内存不是storage（负责spark计算过程中的所有存储，包括磁盘和内存），而是珍贵的计算内存。所以currentbuffer应该被限制，防止占用过多计算内存，拖慢任务计算效率，甚至有可能拖垮Executor甚至集群。

2:维护blockforpushing队列，它是等待被拉到到BlockManager的中转站。它是currentbuffer和BlockManager的中间环节。它里面的每一个元素其实就是一个currentbuffer。

3:维护两个定时器，其实就是一个生产-消费模式。blockintervaltimer定时器，负责生产端，定时将currentbuffer放进blockforpushing队列。blockforpushingthread负责消费端，定时将blockforpushing里的数据转移到BlockManager。

_Direct

首先这种方式是延迟的。也就是说当action真正触发时才会去kafka里接数据。因此不存在currentbuffer的概念。它把kafka每个分区里的数据，映射为KafkaRdd的概念。题外话，在structured streaming中，也已经向DataFrame和DataSet统一了，弱化了RDD的概念。

真正与kafka打交道的是KafkaCluster,全限定名： org.apache.spark.streaming.kafka.KafkaCluster。包括设备kafka各种参数，连接，获取分区，以及偏移量，设置偏移量范围等。

spark streaming集成kafka接收数据的方式的更多相关文章

spark streaming集成kafka
Kakfa起初是由LinkedIn公司开发的一个分布式的消息系统,后成为Apache的一部分,它使用Scala编写,以可水平扩展和高吞吐率而被广泛使用.目前越来越多的开源分布式处理系统如Clouder ...
Spark Streaming 交互 Kafka的两种方式
一.Spark Streaming连Kafka(重点) 方式一:Receiver方式连:走磁盘使用High Level API(高阶API)实现Offset自动管理,灵活性差,处理数据时,如果某一时 ...
Spark Streaming使用Kafka保证数据零丢失
来自: https://community.qingcloud.com/topic/344/spark-streaming使用kafka保证数据零丢失 spark streaming从1.2开始提供了 ...
Spark Streaming连接Kafka的两种方式 direct 跟receiver 方式接收数据的区别
Receiver是使用Kafka的高层次Consumer API来实现的. Receiver从Kafka中获取的数据都是存储在Spark Executor的内存中的,然后Spark Streaming ...
解决spark streaming集成kafka时只能读topic的其中一个分区数据的问题
1. 问题描述我创建了一个名称为myTest的topic,该topic有三个分区,在我的应用中spark streaming以direct方式连接kakfa,但是发现只能消费一个分区的数据,多次更换 ...
spark streaming 对接kafka记录
spark streaming 对接kafka 有两种方式: 参考: http://group.jobbole.com/15559/ http://blog.csdn.net/kwu_ganymede ...
Spark streaming消费Kafka的正确姿势
前言在游戏项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端,我们利用了spark streaming从kafka中不 ...
Spark Streaming、Kafka结合Spark JDBC External DataSouces处理案例
场景:使用Spark Streaming接收Kafka发送过来的数据与关系型数据库中的表进行相关的查询操作: Kafka发送过来的数据格式为:id.name.cityId,分隔符为tab zhangs ...
Spark Streaming之四：Spark Streaming 与 Kafka 集成分析
前言 Spark Streaming 诞生于2013年,成为Spark平台上流式处理的解决方案,同时也给大家提供除Storm 以外的另一个选择.这篇内容主要介绍Spark Streaming 数据接收 ...

随机推荐

pip 国内源
pip install django -i http://mirrors.aliyun.com/pypi/simple --trusted-host mirrors.aliyun.com pip in ...
[Writeup]二维码的一个题
[Writeup]二维码的一个题瓜皮感觉难出题眼,恶魔暴力膜法初现看题一个二维码,扫出来是where is the flag?(where is my mind?) 先感觉用binwalk扫一 ...
Python常用时间操作总结【取得当前时间、时间函数、应用等】转载
Python常用时间操作总结[取得当前时间.时间函数.应用等] 转载 2017-05-11 作者:清风乐逍遥我要评论这篇文章主要介绍了Python常用时间操作,包括取得当前时间.时间函 ...
leetcode994
public class Solution { ; ; ; ; ; Queue<int[]> Q = new Queue<int[]>(); int[,] TagGrid; p ...
OWASP安全编码规范快速参考指南
0x00 原则概览开发安全的软件需要对安全原则有基本的了解.虽然对于安全原则的全面评估超出了本指南的范围,但是我们还是提供了一个快速的概览.软件安全的目标是要维护信息资源的保密性 , 完整性 ...
android的体系结构
android 体系结构:采用软件堆层的架构 ,四层1应用程序“: 提供一系列的核心应用程序 2应用程序框架 :提供安卓平台基本的管理功能和组件重用机制activityManager 管理应用程序的生 ...
bash中 2>&1 & 的解释
1.首先,bash中0,1,2三个数字分别代表STDIN_FILENO.STDOUT_FILENO.STDERR_FILENO,即标准输入(一般是键盘),标准输出(一般是显示屏,准确的说是用户终端控制 ...
iOS pods编译原理
首先看一下Podfile文件下面这行 use_frameworks! 这行的意思是Pod工程中的target是否编译成framework的形式,加上这行Pod工程中的target会编译成framewo ...
C++复习：继承与派生
1继承概念面向对象程序设计有4个主要特点:抽象.封装.继承和多态性.说了类和对象,了解了面向对象程序设计的两个重要特征一数据抽象与封装,已经能够设计出基于对象的程序,这是面向对象程序设计的基础. 要 ...
Spark、Hadoop、Hive相关文章
1.Spark On Yarn(HDFS HA)详细配置过程 2.Hive安装与配置详解

spark streaming集成kafka接收数据的方式

spark streaming集成kafka接收数据的方式的更多相关文章

随机推荐

热门专题