Spark Streaming和Kafka集成深入浅出
写在前面
本文主要介绍Spark Streaming基本概念、kafka集成、Offset管理
本文主要介绍Spark Streaming基本概念、kafka集成、Offset管理
一、概述
Spark Streaming顾名思义是spark的流式处理框架,是面向海量数据实现高吞吐量、高可用的分布式实时计算。关于spark的安装可以参考Spark入门。Spark Streaming并非像Storm那样是真正的流式计算,两者的处理模型在根本上有很大不同:Storm每次处理一条消息,更多详细信息可参考JStorm基本概念介绍;而spark streaming每次处理的是一个时间窗口的数据流,类似于在一个短暂的时间间隔里处理一批数据。
spark streaming实时接收输入数据流,并根据时间将数据流分成连续的多个batch,然后由Spark引擎一次处理一批数据,以批量生成最终结果流,工作流程图:
二、Spak Streaming
2.1、Batch Duration
spark streaming的核心参数,设置流数据被分成多个batch的时间间隔,每个spark引擎处理的就是这个时间间隔内的数据。在Spark Streaming中,Job之间有可能存在依赖关系,所以后面的作业必须确保前面的作业执行完后才会被调度执行。如果批处理时间超过了batch duration,意味着数据处理速率跟不上数据接收速率,那么会导致后面正常的batch提交的作业无法按时执行,随着时间的推移,越来越多的作业被延迟执行,最后导致整个Streaming作业被阻塞,所以需要设置一个合理的批处理间隔以确保作业能够在这个批处理间隔内执行完成。
application UI能详细了解到每个batch的提交时间、数据处理时间、延迟执行时间以及处理的数据条目数。
虽然batchDuration的单位可以达到毫秒级别的,但是经验告诉我们,如果这个值过小将会导致因频繁提交作业从而给整个Streaming带来负担,所以请尽量不要将这个值设置为小于500ms。如果job执行的很快,而batchDuration设置的过长,依然会在上次提交作业间隔batchDuration后才提交下一个(数据流分隔机制决定的),这样spark集群会有大空闲期,集群资源没有被充分利用。spark streaming应用程序在首次启动时同样会间隔batchDuration才提交job(执行InputDStream.compute方法计算batch的RDD并提交作业)。
2.2、DStream
表示一系列时间序列上连续的RDDs,每一个RDDs代表一定时间间隔内到达的数据,这样就把连续的数据流拆成很多小的RDDs数据块(RDDs数据块内的数据是连续的数据)。可以通过实时数据创建DStream,也可以对现有的DStream进行transformation操作生成,例如map、window、reduceByKeyAndWindow等转换操作。
在spark streaming运行期间,每个DStream都会定期生成一个RDDs,具体的是compute(time) 方法,生成的RDDs代表一个批次内的数据,作为提交job的输入元数据:
在对DStream进行操作时,会被Spark Streaming引擎转化成对底层 RDD操作。
foreachRDD:是一个转换输出操作符,它返回的不是RDD里的一行数据, 而是输出DStream后面的RDDs,表示一个批次中的一批数据,一个批次,只有一个RDDs。对于DirectKafkaInputDStream流返回的是KafkaRDD,需要注意的是该操作在运行spark streaming应用程序的driver进程里执行。
2.3、InputDStream
InputDStream继承自DStream,是所有输入流的基类,代表从源接收到的原始数据流DStreams,每一个InputDStream关联到单个Receiver对象,从源数据接收数据并存储到spark内存,等待处理。每一个InputDStream接收到的是单个数据流数据。InputDStream在driver节点上从新数据生成RDDs;如果为了实现input stream在work节点上运行recvicer接收外部数据,需要继承ReceiverInputDStream类。InputDStream的start()、stop()方法,分别用于Spark Streaming系统启动和停止接收数据时调用。
三、kafka集成
3.1、DirectKafkaInputDStream
DirectKafkaInputDStream继承InputDStream,创建方法:
Subscribe有三个参数:topic列表、consumer配置项、topic+partition起始offset,其中fromOffsets是可选的。
driver会根据kafkaParams创建KafkaConsumer,用于Spark Streaming确定batch内的kafka数据(offset)范围。
3.2、KafkaRDD
Spark Streaming每隔一个时间间隔会调用InputDStream.compute方法创建KafkaRDD(在driver上执行),表示这个batch里接收到的kafka数据,然后在提交作业时作为stream job的输入。KafkaRDD extends RDD,实现了compute方法,用于计数一个分区里的数据、返回KafkaRDDIterator迭代器,迭代器内部next方法调用consumer.get,从kafka拉取数据.
job运行时调用KafkaRDD.compute方法从kafka读取数据,也就是实际get操作发生在task中。
KafkaRDD是一个包括topic、partition、fromeOffset、untilOffset等的数据结构;ConsumerRecord是kafka client的api。
3.3、offset初始化
Spark Streaming在启动时先调用Subscribe.onStart方法,初始化KafkaConsumer,这个Consumer对象是在driver中用于获取offset。如果fromOffsets不为空,kafkaConsumer就seek到指定的offset,然后再调用positon获取offset.
如果fromOffsets是空,即没有seek,当用consumer.position方法时,返回的offset取决于auto.offset.reset配置:earliest,获取partition最早的offset;latest获取partition最近的offset。
3.4、latestOffset
spark Streaming的内部逻辑,上一个job的untilOffset成为下一个job的fromOffset。latestOffset函数计算untilOffset,核心计算思想是先consumer.seekToEnd,然后position函数就可以取得当前最后offset:
四、offset管理
enable.auto.commit参数必须设置false,因为在自动commit的情况下,可能在一个batch内的数据还没有处理完、或者处理失败,但offset就自动提交了,就会导致数据丢失。下面是在zk中管理offset的思路,zk简单方便而且保证了可用性。
在spark Streaming作业开始时,readOffsets函数用于从zk读取上次应用保存的最后处理的消息偏移量,有以下两种不同处理场景:
1、Spark Streaming应用程序首次运行时,从zk read不到数据,那么就创建一个KafkaConsumer对象,用consumer.position的方式获取offset,这时获取到的offset取决于auto.offset.reset参数的设置
2、如果是重启Spark Streaming应用程序,那可以直接从zk读取到应用上次保存的offset
在完成kafka DStream处理后,调用persistOffsets方法持久化保存分区的偏移量
整体过程伪代码:
五、反压
如果在一个batch内收到的消息比较多,这就需要为executor分配更多内存,可能会导致其他spark streaming应用程序资源分配不足,甚至有OOM的风险。特别是第一次启动应用程序,从earliest offset消费数据时,kafka保留的历史消息越多,数据处理时间也就越长。反压可以限制每个batch接收到的消息量,降低数据倾斜的风险,开启反压:
SparkConf.set("spark.streaming.backpressure.enabled", "true")
设置每个kafka partition读取消息的最大速率:
SparkConf.set("spark.streaming.kafka.maxRatePerPartition", "spark.streaming.kafka.maxRatePerPartition")
这个值要结合spark Streaming处理消息的速率和batchDuration,尽量保证读取的每个partition数据在batchDuration时间内处理完,这个参数需要不断调整,以做到尽可能高的吞吐量.
Spark Streaming和Kafka集成深入浅出的更多相关文章
- Spark Streaming与Kafka集成
Spark Streaming与Kafka集成 1.介绍 kafka是一个发布订阅消息系统,具有分布式.分区化.多副本提交日志特点.kafka项目在0.8和0.10之间引入了一种新型消费者API,注意 ...
- Spark Streaming之四:Spark Streaming 与 Kafka 集成分析
前言 Spark Streaming 诞生于2013年,成为Spark平台上流式处理的解决方案,同时也给大家提供除Storm 以外的另一个选择.这篇内容主要介绍Spark Streaming 数据接收 ...
- Spark Streaming on Kafka解析和安装实战
本课分2部分讲解: 第一部分,讲解Kafka的概念.架构和用例场景: 第二部分,讲解Kafka的安装和实战. 由于时间关系,今天的课程只讲到如何用官网的例子验证Kafka的安装是否成功.后续课程会接着 ...
- spark streaming 对接kafka记录
spark streaming 对接kafka 有两种方式: 参考: http://group.jobbole.com/15559/ http://blog.csdn.net/kwu_ganymede ...
- Spark Streaming、Kafka结合Spark JDBC External DataSouces处理案例
场景:使用Spark Streaming接收Kafka发送过来的数据与关系型数据库中的表进行相关的查询操作: Kafka发送过来的数据格式为:id.name.cityId,分隔符为tab zhangs ...
- 【转】Spark Streaming和Kafka整合开发指南
基于Receivers的方法 这个方法使用了Receivers来接收数据.Receivers的实现使用到Kafka高层次的消费者API.对于所有的Receivers,接收到的数据将会保存在Spark ...
- Spark streaming消费Kafka的正确姿势
前言 在游戏项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端,我们利用了spark streaming从kafka中不 ...
- Spark Streaming和Kafka整合保证数据零丢失
当我们正确地部署好Spark Streaming,我们就可以使用Spark Streaming提供的零数据丢失机制.为了体验这个关键的特性,你需要满足以下几个先决条件: 1.输入的数据来自可靠的数据源 ...
- spark streaming 整合 kafka(一)
转载:https://www.iteblog.com/archives/1322.html Apache Kafka是一个分布式的消息发布-订阅系统.可以说,任何实时大数据处理工具缺少与Kafka整合 ...
随机推荐
- 四:SpringCloud-Hystrix
八:Hystrix断路器 1. 概述 1.1 分布式系统面临的问题 ==复杂分布式体系结构中的应用程序有数十个依赖关系,每个依赖关系在某些时候将不可避免地失败.== 上图中的请求需要调用A, P, H ...
- apache2.4和2.2 的一些区别
指令的一些差异 其中的一些指令已经无效,如: Order Deny,Allow Deny from all Allow from all 取而代之的是: Deny from all 变成 Re ...
- HDU X问题 中国剩余定理--求满足条件的个数
X问题 Time Limit: 1000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others)Total Submiss ...
- eclipse 查看源码 source not found
是因为eclipse里面没有设置好源码路径. 源码路径在jdk安装包里面 C:/Program Files/Java/jdk1.8.0_191/src.zip 这个src.zip文件, 设置ecli ...
- 鸟哥linux私房菜学习笔记 第二章知识点
2.1 linux一切皆文件 2.2 磁盘分区 磁盘即文件 2.2.1 磁盘连接的方式与设备文件名的关系 模糊 1.正常的实体机器大概使用的都是 /dev/sd[a-] 的磁盘文件名,至于虚拟机环境下 ...
- 理解webpack4.splitChunks之maxInitialRequests
maxInitialRequests是splitChunks里面比较难以理解的点之一,它表示允许入口并行加载的最大请求数,之所以有这个配置也是为了对拆分数量进行限制,不至于拆分出太多模块导致请求数量过 ...
- JS实现省市联动效果
实现的效果为:当选择一个省的时候,会自动出现该省下的市级 效果图如下: <body> <div> <!--界面展示--> <span>省份:</s ...
- 转:php 获取memcache所有key
文章出处 在php提供的用于与memcached交互的扩展模块中有memcached与memcache,前者提供方法getAllKeys用于遍历所有Memcached服务器上的key,但是并不保证原子 ...
- gulp快速将css中的px替换成rem
1.Gulp安装配置 1.全局安装gulp 1.1 安装 命令提示符执行cnpm install gulp -g; 1.2 查看是否正确安装:命令提示符执行gulp -v,出现版本号即为正确安装. 2 ...
- WebService发布与调用问题:expected: {http://schemas.xmlsoap.org/soap/envelope/}Envelope but found: {http://schemas.xmlsoap.org/wsdl/}definitions
Mailbox===AsYVzdwoY_b6uD s>>>>>>>javax.xml.ws.Service@103bf65 hs>>>> ...