sparkStreaming消费kafka-1.0.1方式：direct方式（存储offset到zookeeper）-- 2

参考上篇博文：https://www.cnblogs.com/niutao/p/10547718.html

同样的逻辑，不同的封装

package offsetInZookeeper

/**

  * Created by angel

  */

import java.lang.Object

import kafka.utils.{ZKGroupTopicDirs, ZkUtils}

import org.apache.kafka.clients.consumer.{ConsumerRecord, KafkaConsumer}

import org.apache.kafka.common.TopicPartition

import org.apache.kafka.common.serialization.StringDeserializer

import org.apache.spark.{SparkConf, SparkContext}

import org.apache.spark.rdd.RDD

import org.apache.spark.streaming.{Seconds, StreamingContext}

import org.apache.spark.streaming.dstream.InputDStream

import org.apache.spark.streaming.kafka010.LocationStrategies.PreferConsistent

import org.apache.spark.streaming.kafka010.{ConsumerStrategies, HasOffsetRanges, KafkaUtils}

import org.slf4j.LoggerFactory

import scala.collection.JavaConversions._

import scala.reflect.ClassTag

import scala.util.Try

/**

  * Kafka的连接和Offset管理工具类

  *

  * @param zkHosts     Zookeeper地址

  * @param kafkaParams Kafka启动参数

  */

class KafkaManager(zkHosts: String, kafkaParams: Map[String, Object]) extends Serializable {

  //Logback日志对象，使用slf4j框架

  @transient private lazy val log = LoggerFactory.getLogger(getClass)

  //建立ZkUtils对象所需的参数

  val (zkClient, zkConnection) = ZkUtils.createZkClientAndConnection(zkHosts, 10000, 10000)

  //ZkUtils对象，用于访问Zookeeper

  val zkUtils = new ZkUtils(zkClient, zkConnection, false)

  /**

    * 包装createDirectStream方法，支持Kafka Offset，用于创建Kafka Streaming流

    *

    * @param ssc    Spark Streaming Context

    * @param topics Kafka话题

    * @tparam K Kafka消息Key类型

    * @tparam V Kafka消息Value类型

    * @return Kafka Streaming流

    */

  def createDirectStream[K: ClassTag, V: ClassTag](ssc: StreamingContext, topics: Seq[String]): InputDStream[ConsumerRecord[K, V]] = {

    val groupId = kafkaParams("group.id").toString

    val storedOffsets = readOffsets(topics, groupId)

    log.info("Kafka消息偏移量汇总(格式:(话题,分区号,偏移量)):{}", storedOffsets.map(off => (off._1.topic, off._1.partition(), off._2)))

    val kafkaStream = KafkaUtils.createDirectStream[K, V](ssc, PreferConsistent, ConsumerStrategies.Subscribe[K, V](topics, kafkaParams, storedOffsets))

    kafkaStream

  }

  /**

    * 从Zookeeper读取Kafka消息队列的Offset

    *

    * @param topics  Kafka话题

    * @param groupId Kafka Group ID

    * @return 返回一个Map[TopicPartition, Long]，记录每个话题每个Partition上的offset，如果还没消费，则offset为0

    */

  def readOffsets(topics: Seq[String], groupId: String): Map[TopicPartition, Long] = {

    val topicPartOffsetMap = collection.mutable.HashMap.empty[TopicPartition, Long]

    val partitionMap = zkUtils.getPartitionsForTopics(topics)

    // /consumers/<groupId>/offsets/<topic>/

    partitionMap.foreach(topicPartitions => {

      val zkGroupTopicDirs = new ZKGroupTopicDirs(groupId, topicPartitions._1)

      topicPartitions._2.foreach(partition => {

        val offsetPath = zkGroupTopicDirs.consumerOffsetDir + "/" + partition

        val tryGetKafkaOffset = Try {

          val offsetStatTuple = zkUtils.readData(offsetPath)

          if (offsetStatTuple != null) {

            log.info("查询Kafka消息偏移量详情: 话题:{}, 分区:{}, 偏移量:{}, ZK节点路径:{}", Seq[AnyRef](topicPartitions._1, partition.toString, offsetStatTuple._1, offsetPath): _*)

            topicPartOffsetMap.put(new TopicPartition(topicPartitions._1, Integer.valueOf(partition)), offsetStatTuple._1.toLong)

          }

        }

        if(tryGetKafkaOffset.isFailure){

          //http://kafka.apache.org/0110/javadoc/index.html?org/apache/kafka/clients/consumer/KafkaConsumer.html

          val consumer = new KafkaConsumer[String, Object](kafkaParams)

          val partitionList = List(new TopicPartition(topicPartitions._1, partition))

          consumer.assign(partitionList)

          val minAvailableOffset = consumer.beginningOffsets(partitionList).values.head

          consumer.close()

          log.warn("查询Kafka消息偏移量详情: 没有上一次的ZK节点:{}, 话题:{}, 分区:{}, ZK节点路径:{}, 使用最小可用偏移量:{}", Seq[AnyRef](tryGetKafkaOffset.failed.get.getMessage, topicPartitions._1, partition.toString, offsetPath, minAvailableOffset): _*)

          topicPartOffsetMap.put(new TopicPartition(topicPartitions._1, Integer.valueOf(partition)), minAvailableOffset)

        }

      })

    })

    topicPartOffsetMap.toMap

  }

  /**

    * 保存Kafka消息队列消费的Offset

    *

    * @param rdd            SparkStreaming的Kafka RDD，RDD[ConsumerRecord[K, V]

    * @param storeEndOffset true=保存结束offset， false=保存起始offset

    */

  def persistOffsets[K, V](rdd: RDD[ConsumerRecord[K, V]], storeEndOffset: Boolean = true): Unit = {

    val groupId = kafkaParams("group.id").toString

    val offsetsList = rdd.asInstanceOf[HasOffsetRanges].offsetRanges

    offsetsList.foreach(or => {

      val zkGroupTopicDirs = new ZKGroupTopicDirs(groupId, or.topic)

      val offsetPath = zkGroupTopicDirs.consumerOffsetDir + "/" + or.partition

      val offsetVal = if (storeEndOffset) or.untilOffset else or.fromOffset

      zkUtils.updatePersistentPath(zkGroupTopicDirs.consumerOffsetDir + "/" + or.partition, offsetVal + "" /*, JavaConversions.bufferAsJavaList(acls)*/)

      log.debug("保存Kafka消息偏移量详情: 话题:{}, 分区:{}, 偏移量:{}, ZK节点路径:{}", Seq[AnyRef](or.topic, or.partition.toString, offsetVal.toString, offsetPath): _*)

    })

  }

}

object Manager{

  def main(args: Array[String]): Unit = {

    //5 cdh1:9092,cdh2:9092,cdh3:9092 test2 zk cdh1:2181,cdh2:2181,cdh3:2181

    if (args.length < 5) {

      System.err.println("Usage: KafkaDirectStreamTest " +

        "<batch-duration-in-seconds> " +

        "<kafka-bootstrap-servers> " +

        "<kafka-topics> " +

        "<kafka-consumer-group-id> " +

        "<kafka-zookeeper-quorum>")

      System.exit(1)

    }

    val batchDuration = args(0)

    val bootstrapServers = args(1).toString

    val topicsSet = args(2).toString.split(",").toSet

    val consumerGroupID = args(3)

    val zkQuorum = args(4)

    val sparkConf = new SparkConf().setAppName("Kafka-Offset-Management-Blog")

      .setMaster("local[4]")

    val sc = new SparkContext(sparkConf)

    val ssc = new StreamingContext(sc, Seconds(batchDuration.toLong))

    val topics = topicsSet.toArray

    val kafkaParams = Map[String, Object](

      "bootstrap.servers" -> bootstrapServers,

      "key.deserializer" -> classOf[StringDeserializer],

      "value.deserializer" -> classOf[StringDeserializer],

      "group.id" -> consumerGroupID,

      "auto.offset.reset" -> "latest",

      "enable.auto.commit" -> (false: java.lang.Boolean) //禁用自动提交Offset，否则可能没正常消费完就提交了，造成数据错误

    )

    lazy val kafkaManager = new KafkaManager(zkQuorum , kafkaParams)

    val inputDStream: InputDStream[ConsumerRecord[String, String]] = kafkaManager.createDirectStream(ssc , topics)

    inputDStream.foreachRDD(rdd => {

      val offsetRanges = rdd.asInstanceOf[HasOffsetRanges].offsetRanges

      offsetRanges.foreach(

        offset =>

          println(offset.topic, offset.partition, offset.fromOffset,offset.untilOffset)

      )

      kafkaManager.persistOffsets(rdd)

    })

    ssc.start()

    ssc.awaitTermination()

  }

}

sparkStreaming消费kafka-1.0.1方式：direct方式（存储offset到zookeeper）-- 2的更多相关文章

sparkStreaming消费kafka-1.0.1方式：direct方式（存储offset到zookeeper）
版本声明: kafka:1.0.1 spark:2.1.0 注意:在使用过程中可能会出现servlet版本不兼容的问题,因此在导入maven的pom文件的时候,需要做适当的排除操作 <?xml ...
sparkStreaming消费kafka-0.8方式：direct方式（存储offset到zookeeper）
生产中,为了保证kafka的offset的安全性,并且防止丢失数据现象,会手动维护偏移量(offset) 版本:kafka:0.8 其中需要注意的点: 1:获取zookeeper记录的分区偏移量 2: ...
SparkStreaming消费kafka中数据的方式
有两种:Direct直连方式.Receiver方式 1.Receiver方式: 使用kafka高层次的consumer API来实现,receiver从kafka中获取的数据都保存在spark exc ...
SparkStreaming消费Kafka，手动维护Offset到Mysql
目录说明整体逻辑 offset建表语句代码实现说明当前处理只实现手动维护offset到mysql,只能保证数据不丢失,可能会重复要想实现精准一次性,还需要将数据提交和offset提交维护在 ...
sparkstreaming消费kafka后bulk到es
不使用es-hadoop的saveToES,与scala版本冲突问题太多.不使用bulkprocessor,异步提交,es容易oom,速度反而不快.使用BulkRequestBuilder同步提交. ...
Spark Streaming消费Kafka Direct保存offset到Redis，实现数据零丢失和exactly once
一.概述上次写这篇文章文章的时候,Spark还是1.x,kafka还是0.8x版本,转眼间spark到了2.x,kafka也到了2.x,存储offset的方式也发生了改变,笔者根据上篇文章和网上文章 ...
sparkStreaming读取kafka的两种方式
概述 Spark Streaming 支持多种实时输入源数据的读取,其中包括Kafka.flume.socket流等等.除了Kafka以外的实时输入源,由于我们的业务场景没有涉及,在此将不会讨论.本篇 ...
spark-streaming集成Kafka处理实时数据
在这篇文章里,我们模拟了一个场景,实时分析订单数据,统计实时收益. 场景模拟我试图覆盖工程上最为常用的一个场景: 1)首先,向Kafka里实时的写入订单数据,JSON格式,包含订单ID-订单类型-订 ...
【Spark】Spark Streaming + Kafka direct 的 offset 存入Zookeeper并重用
Spark Streaming + Kafka direct 的 offset 存入Zookeeper并重用 streaming offset设置_百度搜索将 Spark Streaming + K ...

随机推荐

WPA简介
摘选自 https://www.sohu.com/a/199641521_683126 WPA 全名 WI-FI Protected Access, 有WPA 和WPA2两个标准,是一种保护无线网络的 ...
json-lib转化java对象，是否转化为null的属性
public static void main(String[] args) throws Exception{ User user = new User(); user.setUid(25); Js ...
前端----css 选择器
css 为了修饰页面作用, 让页面好看 ⑴ css的引入方式1,行内样式body里面2,内接样式在html里面的 style 里面3,外接样式两种:①链接式: <link rel=" ...
Idea 调试快捷键
F9 resume programe 恢复程序 Alt+F10 show execution point 显示执行断点 F8 Step Over ...
Connection reset by [server_ip] port 22 (hexo d 部署博客出错)
问题在使用 hexo d 部署博客和使用 Git/Github 进行 git push -u origin master 时遇到了以下问题: git -c diff.mnemonicprefix=f ...
Java_解惑
书名 ================================================================================================= ...
Confluence 6 配置字符集编码
Confluence 和你的数据库必须配置使用相同的字符集.为了避免字符出现问题,请将所有的字符集设置为使用 UTF-8 编码(或者根据你配置的数据库来制定正确的 UTF-8 编码字符集,例如在 Or ...
vue之$forceUpdate
由于一些嵌套特别深的数据,导致数据更新了.UI没有更新(连深度监听都没有监听到) this.$forceUpdate();
关于在CentOS上，绘图丢失部分中文字的问题
官方的system.drawing.common 第三方的 zkweb.system.drawing,都用的是libgdiplus 只要是自己编译libgdiplus,都会有这个问题, 问题 : 这里 ...
SpringBoot多环境区分
1.修改application.yml配置文件 spring: profiles: active: cppdy datasource: driver-class-name: com.mysql.jdb ...

sparkStreaming消费kafka-1.0.1方式：direct方式（存储offset到zookeeper）-- 2

sparkStreaming消费kafka-1.0.1方式：direct方式（存储offset到zookeeper）-- 2的更多相关文章

随机推荐

热门专题