Spark+Kafka的Direct方式将偏移量发送到Zookeeper实现（转）

原文链接：Spark+Kafka的Direct方式将偏移量发送到Zookeeper实现

　Apache Spark 1.3.0引入了Direct API，利用Kafka的低层次API从Kafka集群中读取数据，并且在Spark Streaming系统里面维护偏移量相关的信息，并且通过这种方式去实现零数据丢失(zero data loss)相比使用基于Receiver的方法要高效。但是因为是Spark Streaming系统自己维护Kafka的读偏移量，而Spark Streaming系统并没有将这个消费的偏移量发送到Zookeeper中，这将导致那些基于偏移量的Kafka集群监控软件（比如：Apache Kafka监控之Kafka Web Console、Apache Kafka监控之KafkaOffsetMonitor等）失效。本文就是基于为了解决这个问题，使得我们编写的Spark Streaming程序能够在每次接收到数据之后自动地更新Zookeeper中Kafka的偏移量。

　　我们从Spark的官方文档可以知道，维护Spark内部维护Kafka便宜了信息是存储在HasOffsetRanges类的offsetRanges中，我们可以在Spark Streaming程序里面获取这些信息：

`1`	`val` `offsetsList` `=` `rdd.asInstanceOf[HasOffsetRanges].offsetRanges`

这样我们就可以获取所以分区消费信息，只需要遍历offsetsList，然后将这些信息发送到Zookeeper即可更新Kafka消费的偏移量。完整的代码片段如下：

`01`	`val` `messages` `=KafkaUtils.createDirectStream[String, String, StringDecoder, StringDecoder](ssc, kafkaParams, topicsSet)`

`02`	`messages.foreachRDD(rdd` `=> {`

`03`	`val` `offsetsList` `=` `rdd.asInstanceOf[HasOffsetRanges].offsetRanges`

`04`	`val` `kc` `=` `new` `KafkaCluster(kafkaParams)`

`05`	`for` `(offsets < - offsetsList) {`

`06`	`val` `topicAndPartition` `=` `TopicAndPartition("iteblog", offsets.partition)`

`07`	`val` `o` `=kc.setConsumerOffsets(args(0), Map((topicAndPartition, offsets.untilOffset)))`

`08`	`if` `(o.isLeft) {`

`09`	`println(s"Error updating the offset to Kafka cluster: ${o.left.get}")`

10 }

11 }

12 })

　　KafkaCluster类用于建立和Kafka集群的链接相关的操作工具类，我们可以对Kafka中Topic的每个分区设置其相应的偏移量Map((topicAndPartition, offsets.untilOffset)),然后调用KafkaCluster类的setConsumerOffsets方法去更新Zookeeper里面的信息，这样我们就可以更新Kafka的偏移量，最后我们就可以通过KafkaOffsetMonitor之类软件去监控Kafka中相应Topic的消费信息，下图是KafkaOffsetMonitor的监控情况：

　　从图中我们可以看到KafkaOffsetMonitor监控软件已经可以监控到Kafka相关分区的消费情况，这对监控我们整个Spark Streaming程序来非常重要，因为我们可以任意时刻了解Spark读取速度。另外，KafkaCluster工具类的完整代码如下：

查看源代码

打印帮助

`01`	`package` `org.apache.spark.streaming.kafka`

02

`03`	`import` `kafka.api.OffsetCommitRequest`

`04`	`import` `kafka.common.{ErrorMapping, OffsetMetadataAndError, TopicAndPartition}`

`05`	`import` `kafka.consumer.SimpleConsumer`

`06`	`import` `org.apache.spark.SparkException`

`07`	`import` `org.apache.spark.streaming.kafka.KafkaCluster.SimpleConsumerConfig`

08

`09`	`import` `scala.collection.mutable.ArrayBuffer`

`10`	`import` `scala.util.Random`

`11`	`import` `scala.util.control.NonFatal`

12

13 /**

`14`	`* User: 过往记忆`

`15`	`* Date: 2015-06-02`

`16`	`* Time: 下午23:46`

`17`	`* bolg: http://www.iteblog.com`

`18`	`* 本文地址：http://www.iteblog.com/archives/1381`

`19`	`* 过往记忆博客，专注于hadoop、hive、spark、shark、flume的技术博客，大量的干货`

`20`	`* 过往记忆博客微信公共帐号：iteblog_hadoop`

21 */

22

`23`	`class` `KafkaCluster(val` `kafkaParams:` `Map[String, String])` `extends` `Serializable {`

`24`	`type` `Err` `=` `ArrayBuffer[Throwable]`

25

`26`	`@transient` `private` `var` `_config:` `SimpleConsumerConfig` `=` `null`

27

`28`	`def` `config:` `SimpleConsumerConfig` `=` `this.synchronized {`

`29`	`if` `(_config` `==` `null) {`

`30`	`_config` `=` `SimpleConsumerConfig(kafkaParams)`

31 }

32 _config

33 }

34

`35`	`def` `setConsumerOffsets(groupId:` `String,`

`36`	`offsets:` `Map[TopicAndPartition, Long]`

`37`	`):` `Either[Err, Map[TopicAndPartition, Short]]` `=` `{`

`38`	`setConsumerOffsetMetadata(groupId, offsets.map { kv` `=>`

`39`	`kv._1` `-> OffsetMetadataAndError(kv._2)`

40 })

41 }

42

`43`	`def` `setConsumerOffsetMetadata(groupId:` `String,`

`44`	`metadata:` `Map[TopicAndPartition, OffsetMetadataAndError]`

`45`	`):` `Either[Err, Map[TopicAndPartition, Short]]` `=` `{`

`46`	`var` `result` `=` `Map[TopicAndPartition, Short]()`

`47`	`val` `req` `=` `OffsetCommitRequest(groupId, metadata)`

`48`	`val` `errs` `=` `new` `Err`

`49`	`val` `topicAndPartitions` `=` `metadata.keySet`

`50`	`withBrokers(Random.shuffle(config.seedBrokers), errs) { consumer` `=>`

`51`	`val` `resp` `=` `consumer.commitOffsets(req)`

`52`	`val` `respMap` `=` `resp.requestInfo`

`53`	`val` `needed` `=` `topicAndPartitions.diff(result.keySet)`

`54`	`needed.foreach { tp:` `TopicAndPartition` `=>`

`55`	`respMap.get(tp).foreach { err:` `Short` `=>`

`56`	`if` `(err` `==` `ErrorMapping.NoError) {`

`57`	`result +=` `tp -> err`

`58`	`}` `else` `{`

`59`	`errs.append(ErrorMapping.exceptionFor(err))`

60 }

61 }

62 }

`63`	`if` `(result.keys.size` `==` `topicAndPartitions.size) {`

`64`	`return` `Right(result)`

65 }

66 }

`67`	`val` `missing` `=` `topicAndPartitions.diff(result.keySet)`

`68`	`errs.append(new` `SparkException(s"Couldn't set offsets for ${missing}"))`

`69`	`Left(errs)`

70 }

71

`72`	`private` `def` `withBrokers(brokers:` `Iterable[(String, Int)], errs:` `Err)`

`73`	`(fn:` `SimpleConsumer` `=> Any):` `Unit` `=` `{`

`74`	`brokers.foreach { hp` `=>`

`75`	`var` `consumer:` `SimpleConsumer` `=` `null`

76 try {

`77`	`consumer` `=` `connect(hp._1, hp._2)`

`78`	`fn(consumer)`

`79`	`}` `catch` `{`

`80`	`case` `NonFatal(e)` `=>`

`81`	`errs.append(e)`

`82`	`}` `finally` `{`

`83`	`if` `(consumer !=` `null) {`

`84`	`consumer.close()`

85 }

86 }

87 }

88 }

89

`90`	`def` `connect(host:` `String, port:` `Int):` `SimpleConsumer` `=`

`91`	`new` `SimpleConsumer(host, port, config.socketTimeoutMs,`

`92`	`config.socketReceiveBufferBytes, config.clientId)`

93 }

Spark+Kafka的Direct方式将偏移量发送到Zookeeper实现（转）的更多相关文章

sparkStreaming消费kafka-0.8方式：direct方式（存储offset到zookeeper）
生产中,为了保证kafka的offset的安全性,并且防止丢失数据现象,会手动维护偏移量(offset) 版本:kafka:0.8 其中需要注意的点: 1:获取zookeeper记录的分区偏移量 2: ...
sparkStreaming消费kafka-1.0.1方式：direct方式（存储offset到zookeeper）-- 2
参考上篇博文:https://www.cnblogs.com/niutao/p/10547718.html 同样的逻辑,不同的封装 package offsetInZookeeper /** * Cr ...
sparkStreaming消费kafka-1.0.1方式：direct方式（存储offset到zookeeper）
版本声明: kafka:1.0.1 spark:2.1.0 注意:在使用过程中可能会出现servlet版本不兼容的问题,因此在导入maven的pom文件的时候,需要做适当的排除操作 <?xml ...
SparkStreaming和Kafka基于Direct Approach如何管理offset实现exactly once
在之前的文章<解析SparkStreaming和Kafka集成的两种方式>中已详细介绍SparkStreaming和Kafka集成主要有Receiver based Approach和Di ...
Spark Streaming消费Kafka Direct方式数据零丢失实现
使用场景 Spark Streaming实时消费kafka数据的时候,程序停止或者Kafka节点挂掉会导致数据丢失,Spark Streaming也没有设置CheckPoint(据说比较鸡肋,虽然可以 ...
kafka结合Spark-streming的直连(Direct)方式
说明:此程序使用的scala编写在spark-stream+kafka使用的时候,有两种连接方式一种是Receiver连接方式,一种是Direct连接方式. 两种连接方式简介: Receiver接 ...
大数据学习day33----spark13-----1.两种方式管理偏移量并将偏移量写入redis 2. MySQL事务的测试 3.利用MySQL事务实现数据统计的ExactlyOnce（sql语句中出现相同key时如何进行累加（此处时出现相同的单词））4 将数据写入kafka
1.两种方式管理偏移量并将偏移量写入redis (1)第一种:rdd的形式一般是使用这种直连的方式,但其缺点是没法调用一些更加高级的api,如窗口操作.如果想更加精确的控制偏移量,就使用这种方式代 ...
大数据Spark+Kafka实时数据分析案例
本案例利用Spark+Kafka实时分析男女生每秒购物人数,利用Spark Streaming实时处理用户购物日志,然后利用websocket将数据实时推送给浏览器,最后浏览器将接收到的数据实时展现, ...
【python】spark+kafka使用
网上用python写spark+kafka的资料好少啊自己记录一点踩到的坑~ spark+kafka介绍的官方网址:http://spark.apache.org/docs/latest/strea ...

随机推荐

web项目使用配置web.xml实现重定向
1.实现方式使用servlet和servlet-mapping实现重定向  <servlet> <servlet-name&g ...
关于socket知识整理
一个完整的计算机系统是由硬件.操作系统.应用软件三者组成,具备了这三个条件,一台计算机系统就可以玩单机游戏.如果你想上网(访问个黄色网站,发个黄色微博啥的),就需要遵守网络协议,即计算机之间交流的标准 ...
HTML5前端
Web前端介绍 angular2html 1.HTML (常用标签网页的基本结构) 2.CSS (常用样式网页的显示效果) 3.JavaScript (用户交互效果动态效果) 4.jQuery ...
GNU C __attribute__ 机制简介
摘要: 在学习linux内核代码及一些开源软件的源码(如:DirectFB),经常可以看到有关__attribute__的相关使用.本文结合自己的学习经历,较为详细的介绍了__attribute__相 ...
ThinkPHP快速实现数据分页（前端/后端分离）
数据分页可能是web 编程里最常用到的功能之一.thinkphp 实现分页功能十分简洁.只需要定义几个参数就能搞定.当然,扩展也是十分方便的. 让我们现在就开始thinkphp的分页实现吧. ...
bzoj 1027 floyd求有向图最小环
结合得好巧妙.... 化简后的问题是: 给你两个点集A,B,求B的一个子集BB,使得BB的凸包包含A的凸包,求BB的最小大小. 先特判答案为1,2的情况,答案为3的情况,我们先构造一个有向图: 对于B ...
[转]Android Message.obtain() 和Handler.obtainMessage()的区别
目录(?)[+] 参考:http://www.2cto.com/kf/201311/255885.html http://www.cnblogs.com/over140/archive/2 ...
Codeforces Round #298 (Div. 2) E. Berland Local Positioning System 构造
E. Berland Local Positioning System Time Limit: 1 Sec Memory Limit: 256 MB 题目连接 http://codeforces.c ...
HDU 1754 I Hate It 线段树RMQ
I Hate It Time Limit: 1 Sec Memory Limit: 256 MB 题目连接 http://acm.hdu.edu.cn/showproblem.php?pid=175 ...
Codeforces Round #276 div1 B. Maximum Value Hash 乱搞
#include <cstdio> #include <cmath> #include <cstring> #include <ctime> #incl ...

Spark+Kafka的Direct方式将偏移量发送到Zookeeper实现（转）

原文链接：Spark+Kafka的Direct方式将偏移量发送到Zookeeper实现

Spark+Kafka的Direct方式将偏移量发送到Zookeeper实现（转）的更多相关文章

随机推荐

热门专题