spark streaming kafka1.4.1中的低阶api createDirectStream使用总结

转载：http://blog.csdn.net/ligt0610/article/details/47311771

由于目前每天需要从kafka中消费20亿条左右的消息，集群压力有点大，会导致job不同程度的异常退出。原来使用spark1.1.0版本中的createStream函数，但是在数据处理速度跟不上数据消费速度且job异常退出的情况下，可能造成大量的数据丢失。幸好，Spark后续版本对这一情况有了很大的改进，1.2版本加入WAL特性，但是性能应该会受到一些影响（本人未测试），1.3版本可以直接通过低阶API从kafka的topic消费消息，并且不再向zookeeper中更新consumer offsets，使得基于zookeeper的consumer offsets的监控工具都会失效。

官方只是非常简单的描述了可以用以下方法修改zookeeper中的consumer offsets（可以查看http://spark.apache.org/docs/1.4.1/streaming-kafka-integration.html）：

    // Hold a reference to the current offset ranges, so it can be used downstream

     var offsetRanges = Array[OffsetRange]()  

     directKafkaStream.transform { rdd =>

       offsetRanges = rdd.asInstanceOf[HasOffsetRanges].offsetRanges

       rdd

     }.map {

               ...

     }.foreachRDD { rdd =>

       for (o <- offsetRanges) {

         println(s"${o.topic} ${o.partition} ${o.fromOffset} ${o.untilOffset}")

       }

       ...

     }

所以更新zookeeper中的consumer offsets还需要自己去实现，并且官方提供的两个createDirectStream重载并不能很好的满足我的需求，需要进一步封装。具体看以下KafkaManager类的代码：

    package org.apache.spark.streaming.kafka  

    import kafka.common.TopicAndPartition

    import kafka.message.MessageAndMetadata

    import kafka.serializer.Decoder

    import org.apache.spark.SparkException

    import org.apache.spark.rdd.RDD

    import org.apache.spark.streaming.StreamingContext

    import org.apache.spark.streaming.dstream.InputDStream

    import org.apache.spark.streaming.kafka.KafkaCluster.{LeaderOffset}  

    import scala.reflect.ClassTag  

    /**

     * Created by knowpigxia on 15-8-5.

     */

    class KafkaManager(val kafkaParams: Map[String, String]) extends Serializable {  

      private val kc = new KafkaCluster(kafkaParams)  

      /**

       * 创建数据流

       * @param ssc

       * @param kafkaParams

       * @param topics

       * @tparam K

       * @tparam V

       * @tparam KD

       * @tparam VD

       * @return

       */

      def createDirectStream[K: ClassTag, V: ClassTag, KD <: Decoder[K]: ClassTag, VD <: Decoder[V]: ClassTag](

                                                                                                                ssc: StreamingContext, kafkaParams: Map[String, String], topics: Set[String]): InputDStream[(K, V)] =  {

        val groupId = kafkaParams.get("group.id").get

        // 在zookeeper上读取offsets前先根据实际情况更新offsets

        setOrUpdateOffsets(topics, groupId)  

        //从zookeeper上读取offset开始消费message

        val messages = {

          val partitionsE = kc.getPartitions(topics)

          if (partitionsE.isLeft)

            throw new SparkException(s"get kafka partition failed: ${partitionsE.left.get}")

          val partitions = partitionsE.right.get

          val consumerOffsetsE = kc.getConsumerOffsets(groupId, partitions)

          if (consumerOffsetsE.isLeft)

            throw new SparkException(s"get kafka consumer offsets failed: ${consumerOffsetsE.left.get}")

          val consumerOffsets = consumerOffsetsE.right.get

          KafkaUtils.createDirectStream[K, V, KD, VD, (K, V)](

            ssc, kafkaParams, consumerOffsets, (mmd: MessageAndMetadata[K, V]) => (mmd.key, mmd.message))

        }

        messages

      }  

      /**

       * 创建数据流前，根据实际消费情况更新消费offsets

       * @param topics

       * @param groupId

       */

      private def setOrUpdateOffsets(topics: Set[String], groupId: String): Unit = {

        topics.foreach(topic => {

          var hasConsumed = true

          val partitionsE = kc.getPartitions(Set(topic))

          if (partitionsE.isLeft)

            throw new SparkException(s"get kafka partition failed: ${partitionsE.left.get}")

          val partitions = partitionsE.right.get

          val consumerOffsetsE = kc.getConsumerOffsets(groupId, partitions)

          if (consumerOffsetsE.isLeft) hasConsumed = false

          if (hasConsumed) {// 消费过

            /**

             * 如果streaming程序执行的时候出现kafka.common.OffsetOutOfRangeException，

             * 说明zk上保存的offsets已经过时了，即kafka的定时清理策略已经将包含该offsets的文件删除。

             * 针对这种情况，只要判断一下zk上的consumerOffsets和earliestLeaderOffsets的大小，

             * 如果consumerOffsets比earliestLeaderOffsets还小的话，说明consumerOffsets已过时,

             * 这时把consumerOffsets更新为earliestLeaderOffsets

             */

            val earliestLeaderOffsetsE = kc.getEarliestLeaderOffsets(partitions)

            if (earliestLeaderOffsetsE.isLeft)

              throw new SparkException(s"get earliest leader offsets failed: ${earliestLeaderOffsetsE.left.get}")

            val earliestLeaderOffsets = earliestLeaderOffsetsE.right.get

            val consumerOffsets = consumerOffsetsE.right.get  

            // 可能只是存在部分分区consumerOffsets过时，所以只更新过时分区的consumerOffsets为earliestLeaderOffsets

            var offsets: Map[TopicAndPartition, Long] = Map()

            consumerOffsets.foreach({ case(tp, n) =>

              val earliestLeaderOffset = earliestLeaderOffsets(tp).offset

              if (n < earliestLeaderOffset) {

                println("consumer group:" + groupId + ",topic:" + tp.topic + ",partition:" + tp.partition +

                  " offsets已经过时，更新为" + earliestLeaderOffset)

                offsets += (tp -> earliestLeaderOffset)

              }

            })

            if (!offsets.isEmpty) {

              kc.setConsumerOffsets(groupId, offsets)

            }

          } else {// 没有消费过

          val reset = kafkaParams.get("auto.offset.reset").map(_.toLowerCase)

            var leaderOffsets: Map[TopicAndPartition, LeaderOffset] = null

            if (reset == Some("smallest")) {

              val leaderOffsetsE = kc.getEarliestLeaderOffsets(partitions)

              if (leaderOffsetsE.isLeft)

                throw new SparkException(s"get earliest leader offsets failed: ${leaderOffsetsE.left.get}")

              leaderOffsets = leaderOffsetsE.right.get

            } else {

              val leaderOffsetsE = kc.getLatestLeaderOffsets(partitions)

              if (leaderOffsetsE.isLeft)

                throw new SparkException(s"get latest leader offsets failed: ${leaderOffsetsE.left.get}")

              leaderOffsets = leaderOffsetsE.right.get

            }

            val offsets = leaderOffsets.map {

              case (tp, offset) => (tp, offset.offset)

            }

            kc.setConsumerOffsets(groupId, offsets)

          }

        })

      }  

      /**

       * 更新zookeeper上的消费offsets

       * @param rdd

       */

      def updateZKOffsets(rdd: RDD[(String, String)]) : Unit = {

        val groupId = kafkaParams.get("group.id").get

        val offsetsList = rdd.asInstanceOf[HasOffsetRanges].offsetRanges  

        for (offsets <- offsetsList) {

          val topicAndPartition = TopicAndPartition(offsets.topic, offsets.partition)

          val o = kc.setConsumerOffsets(groupId, Map((topicAndPartition, offsets.untilOffset)))

          if (o.isLeft) {

            println(s"Error updating the offset to Kafka cluster: ${o.left.get}")

          }

        }

      }

    }

接下来再给一个简单的例子：

    import kafka.serializer.StringDecoder

    import org.apache.log4j.{Level, Logger}

    import org.apache.spark.SparkConf

    import org.apache.spark.rdd.RDD

    import org.apache.spark.streaming.kafka._

    import org.apache.spark.streaming.{Seconds, StreamingContext}  

    /**

     * Created by knowpigxia on 15-8-4.

     */

    object DirectKafkaWordCount {  

      def dealLine(line: String): String = {

        val list = AnalysisUtil.dealString(line, ',', '"')// 把dealString函数当做split即可

        list.get().substring(, ) + "-" + list.get()

      }  

      def processRdd(rdd: RDD[(String, String)]): Unit = {

        val lines = rdd.map(_._2)

        val words = lines.map(dealLine(_))

        val wordCounts = words.map(x => (x, 1L)).reduceByKey(_ + _)

        wordCounts.foreach(println)

      }  

      def main(args: Array[String]) {

        if (args.length < ) {

          System.err.println( s"""

            |Usage: DirectKafkaWordCount <brokers> <topics> <groupid>

            |  <brokers> is a list of one or more Kafka brokers

            |  <topics> is a list of one or more kafka topics to consume from

            |  <groupid> is a consume group

            |

            """.stripMargin)

          System.exit()

        }  

        Logger.getLogger("org").setLevel(Level.WARN)  

        val Array(brokers, topics, groupId) = args  

        // Create context with 2 second batch interval

        val sparkConf = new SparkConf().setAppName("DirectKafkaWordCount")

        sparkConf.setMaster("local[*]")

        sparkConf.set("spark.streaming.kafka.maxRatePerPartition", "")

        sparkConf.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer")  

        val ssc = new StreamingContext(sparkConf, Seconds())  

        // Create direct kafka stream with brokers and topics

        val topicsSet = topics.split(",").toSet

        val kafkaParams = Map[String, String](

          "metadata.broker.list" -> brokers,

          "group.id" -> groupId,

          "auto.offset.reset" -> "smallest"

        )  

        val km = new KafkaManager(kafkaParams)  

        val messages = km.createDirectStream[String, String, StringDecoder, StringDecoder](

          ssc, kafkaParams, topicsSet)  

        messages.foreachRDD(rdd => {

          if (!rdd.isEmpty()) {

            // 先处理消息

            processRdd(rdd)

            // 再更新offsets

            km.updateZKOffsets(rdd)

          }

        })  

        ssc.start()

        ssc.awaitTermination()

      }

    }

spark streaming kafka1.4.1中的低阶api createDirectStream使用总结的更多相关文章

2、 Spark Streaming方式从socket中获取数据进行简单单词统计
Spark 1.5.2 Spark Streaming 学习笔记和编程练习 Overview 概述 Spark Streaming is an extension of the core Spark ...
TensorFlow低阶API（四）—— 图和会话
简介 TensorFlow使用数据流图将计算表示为独立的指令之间的依赖关系.这可生成低级别的编程模型,在该模型中,您首先定义数据流图,然后创建TensorFlow会话,以便在一组本地和远程设备上运行图 ...
TensorFlow低阶API（一）—— 简介
简介本文旨在知道您使用低级别TensorFlow API(TensorFlow Core)开始编程.您可以学习执行以下操作: 管理自己的TensorFlow程序(tf.Graph)和TensorFl ...
TensorFlow低阶API（二）—— 张量
简介正如名字所示,TensorFlow这一框架定义和运行涉及张量的计算.张量是对矢量和矩阵向潜在的更高维度的泛化.TensorFlow在内部将张量表示为基本数据类型的n维数组. 在编写TensorF ...
TebsorFlow低阶API（五）—— 保存和恢复
简介 tf.train.Saver 类提供了保存和恢复模型的方法.通过 tf.saved_model.simple_save 函数可以轻松地保存适合投入使用的模型.Estimator会自动保存和恢复 ...
TensorFlow低阶API（三）—— 变量
简介 TensorFlow变量是表示程序处理的共享持久状态的最佳方法. 我们使用tf.Variable类操作变量.tf.Variable表示可通过其运行操作来改变其值的张量.与tf.Tensor对象不 ...
大数据技术之_27_电商平台数据分析项目_02_预备知识 + Scala + Spark Core + Spark SQL + Spark Streaming + Java 对象池
第0章预备知识0.1 Scala0.1.1 Scala 操作符0.1.2 拉链操作0.2 Spark Core0.2.1 Spark RDD 持久化0.2.2 Spark 共享变量0.3 Spark ...
【转】Spark Streaming 实时计算在甜橙金融监控系统中的应用及优化
系统架构介绍整个实时监控系统的架构是先由 Flume 收集服务器产生的日志 Log 和前端埋点数据, 然后实时把这些信息发送到 Kafka 分布式发布订阅消息系统,接着由 Spark Streami ...
Spark踩坑记——Spark Streaming+Kafka
[TOC] 前言在WeTest舆情项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端,我们利用了spark strea ...

随机推荐

flexbox弹性盒模型
div { display:flex; } div a{ }
pymongo带认证连接mongo
import pymongo connection = pymongo.MongoClient("127.0.0.1") connection.database.authentic ...
SQLSERVER：计算数据库中各个表的数据量和每行记录所占用空间
转:http://www.cnblogs.com/lyhabc/p/3828496.html CREATE TABLE #tablespaceinfo ( nameinfo ) , rowsinfo ...
前端测试框架 jasmine 的使用
最近的项目在使用AngulaJs,对JS代码的测试问题就摆在了面前.通过对比我们选择了 Karma + jasmine ,使用 Jasmine做单元测试 ,Karma 自动化完成,当然了如果使用 K ...
python编写接口
转——Android应用开发性能优化完全分析
[工匠若水 http://blog.csdn.net/yanbober 转载请注明出处.] 1 背景其实有点不想写这篇文章的,但是又想写,有些矛盾.不想写的原因是随便上网一搜一堆关于性能的建议,感觉 ...
【转载】Myeclipse如何自动创建hibernate
Myeclipse如何自动创建hibernate:http://jingyan.baidu.com/article/456c463b99f4370a583144a8.html An internal ...
【PL/SQL练习】函数
1.必须返回一个值2.只能在表达式调用 SQL> create or replace function fun1 return number is v_sum_sal emp.sal%type; ...
学习记录 java泛型资料
java泛型资料: 1. 概述在引入范型之前,Java类型分为原始类型.复杂类型,其中复杂类型分为数组和类.引入范型后,一个复杂类型就可以在细分成更多的类型.例如原先的类型List,现在在细分成Lis ...
学习总结 java 创建及其练习
创建: 打开eclipse—文件—新建—java项目—项目名称命名—点击texe-1练习下拉箭头—右击src—新建—类—设置类名称(名称设置时不要添加空格),在“想要创建哪些方法跟”下面点击:publ ...

spark streaming kafka1.4.1中的低阶api createDirectStream使用总结

spark streaming kafka1.4.1中的低阶api createDirectStream使用总结的更多相关文章

随机推荐

热门专题