sparkStreaming消费kafka-0.8方式：direct方式（存储offset到zookeeper）

生产中，为了保证kafka的offset的安全性，并且防止丢失数据现象，会手动维护偏移量（offset）

版本：kafka：0.8

其中需要注意的点：

1：获取zookeeper记录的分区偏移量

2：获取broker中实际的最小和最大偏移量

3：将实际的偏移量和zookeeper记录的偏移量进行对比，如果zookeeper中记录的偏移量在实际的偏移量范围内则使用zookeeper中的偏移量

4：反之，使用实际的broker中的最小偏移量

KafkaHelper：

import kafka.common.TopicAndPartition

import kafka.message.MessageAndMetadata

import kafka.serializer.StringDecoder

import kafka.utils.{ZKGroupTopicDirs, ZkUtils}

import org.I0Itec.zkclient.ZkClient

import org.apache.spark.SparkException

import org.apache.spark.streaming.StreamingContext

import org.apache.spark.streaming.dstream.InputDStream

import org.apache.spark.streaming.kafka.{KafkaCluster, KafkaUtils, OffsetRange}

import org.apache.spark.streaming.kafka.KafkaCluster.Err

/**

  * KafkaHelper类提供两个共有方法，一个用来创建direct方式的DStream，另一个用来更新zookeeper中的消费偏移量

  * @param kafkaPrams kafka配置参数

  * @param zkQuorum zookeeper列表

  * @param group 消费组

  * @param topic 消费主题

  */

class KafkaHelper(kafkaPrams:Map[String,String],zkQuorum:String,group:String,topic:String) extends Serializable{

  private val kc = new KafkaCluster(kafkaPrams)

  private val zkClient = new ZkClient(zkQuorum)

  private val topics = Set(topic)

  /**

    * 获取消费组group下的主题topic在zookeeper中的保存路径

    * @return

    */

  private def getZkPath():String={

    val topicDirs = new ZKGroupTopicDirs(group,topic)

    val zkPath = topicDirs.consumerOffsetDir

    zkPath

  }

  /**

    * 获取偏移量信息

    * @param children 分区数

    * @param zkPath zookeeper中的topic信息的路径

    * @param earlistLeaderOffsets broker中的实际最小偏移量

    * @param latestLeaderOffsets broker中的实际最大偏移量

    * @return

    */

  private def getOffsets(children:Int,zkPath:String,earlistLeaderOffsets:Map[TopicAndPartition, KafkaCluster.LeaderOffset],latestLeaderOffsets: Map[TopicAndPartition, KafkaCluster.LeaderOffset]): Map[TopicAndPartition, Long] = {

    var fromOffsets: Map[TopicAndPartition, Long] = Map()

    for(i <- 0 until children){

      //获取zookeeper记录的分区偏移量

      val zkOffset = zkClient.readData[String](s"${zkPath}/${i}").toLong

      val tp = TopicAndPartition(topic,i)

      //获取broker中实际的最小和最大偏移量

      val earlistOffset: Long = earlistLeaderOffsets(tp).offset

      val latestOffset: Long = latestLeaderOffsets(tp).offset

      //将实际的偏移量和zookeeper记录的偏移量进行对比，如果zookeeper中记录的偏移量在实际的偏移量范围内则使用zookeeper中的偏移量，

      //反之，使用实际的broker中的最小偏移量

      if(zkOffset>=earlistOffset && zkOffset<=latestOffset) {

        fromOffsets += (tp -> zkOffset)

      }else{

        fromOffsets += (tp -> earlistOffset)

      }

    }

    fromOffsets

  }

  /**

    * 创建DStream

    * @param ssc

    * @return

    */

  def createDirectStream(ssc:StreamingContext):InputDStream[(String, String)]={

    //----------------------获取broker中实际偏移量---------------------------------------------

    val partitionsE: Either[Err, Set[TopicAndPartition]] = kc.getPartitions(topics)

    if(partitionsE.isLeft)

      throw new SparkException("get kafka partitions failed:")

    val partitions = partitionsE.right.get

    val earlistLeaderOffsetsE: Either[Err, Map[TopicAndPartition, KafkaCluster.LeaderOffset]] = kc.getEarliestLeaderOffsets(partitions)

    if(earlistLeaderOffsetsE.isLeft)

      throw new SparkException("get kafka earlistLeaderOffsets failed:")

    val earlistLeaderOffsets: Map[TopicAndPartition, KafkaCluster.LeaderOffset] = earlistLeaderOffsetsE.right.get

    val latestLeaderOffsetsE: Either[Err, Map[TopicAndPartition, KafkaCluster.LeaderOffset]] = kc.getLatestLeaderOffsets(partitions)

    if(latestLeaderOffsetsE.isLeft)

      throw new SparkException("get kafka latestLeaderOffsets failed:")

    val latestLeaderOffsets: Map[TopicAndPartition, KafkaCluster.LeaderOffset] = latestLeaderOffsetsE.right.get

    //----------------------创建kafkaStream----------------------------------------------------

    var kafkaStream:InputDStream[(String, String)]=null

    val zkPath: String = getZkPath()

    val children = zkClient.countChildren(zkPath)

    //根据zookeeper中是否有偏移量数据判断有没有消费过kafka中的数据

    if(children > 0){

      val fromOffsets:Map[TopicAndPartition, Long] = getOffsets(children,zkPath,earlistLeaderOffsets,latestLeaderOffsets)

      val messageHandler = (mmd: MessageAndMetadata[String, String]) => (mmd.topic, mmd.message())

      //如果消费过，根据偏移量创建Stream

      kafkaStream = KafkaUtils.createDirectStream[String, String, StringDecoder, StringDecoder, (String, String)](

        ssc, kafkaPrams, fromOffsets, messageHandler)

    }else{

      //如果没有消费过，根据kafkaPrams配置信息从最早的数据开始创建Stream

      kafkaStream = KafkaUtils.createDirectStream[String, String, StringDecoder, StringDecoder](ssc, kafkaPrams, topics)

    }

    kafkaStream

  }

  /**

    * 更新zookeeper中的偏移量

    * @param offsetRanges

    */

  def updateZkOffsets(offsetRanges:Array[OffsetRange])={

    val zkPath: String = getZkPath()

    for( o <- offsetRanges){

      val newZkPath = s"${zkPath}/${o.partition}"

      //将该 partition 的 offset 保存到 zookeeper

      ZkUtils.updatePersistentPath(zkClient, newZkPath, o.fromOffset.toString)

    }

  }

}

驱动类：

package CC

import org.apache.spark.SparkConf

import org.apache.spark.sparkStreaming.kafka.KafkaHelper

import org.apache.spark.streaming.dstream.InputDStream

import org.apache.spark.streaming.kafka.{HasOffsetRanges, OffsetRange}

import org.apache.spark.streaming.{Seconds, StreamingContext}

/**

  * Created by angel；

  */

object TestKafkaHelper {

  def main(args: Array[String]): Unit = {

    val Array(timeInterval,brokerList,zkQuorum,topic,group) = Array(

      "2"

      , "hadoop01:9092,hadoop02:9092,hadoop03:9092"

      , "hadoop01:2181,hadoop02:2181,hadoop03:2181"

      , "CustomerContacts"

      , "CustomerContacts"

    )

    val conf = new SparkConf().setAppName("KafkaDirectStream").setMaster("local[2]")

    val ssc = new StreamingContext(conf,Seconds(timeInterval.toInt))

    //kafka配置参数

    val kafkaParams = Map(

      "metadata.broker.list" -> brokerList,

      "group.id" -> group,

      "auto.offset.reset" -> kafka.api.OffsetRequest.SmallestTimeString

    )

    val kafkaHelper = new KafkaHelper(kafkaParams,zkQuorum,topic,group)

    val kafkaStream: InputDStream[(String, String)] = kafkaHelper.createDirectStream(ssc)

    var offsetRanges = Array[OffsetRange]()

    kafkaStream.transform( rdd =>{

      offsetRanges = rdd.asInstanceOf[HasOffsetRanges].offsetRanges

      rdd

    }).map( msg => msg._2)

      .foreachRDD( rdd => {

        rdd.foreachPartition( partition =>{

          partition.foreach( record =>{

            //处理数据的方法

            println(record)

          })

        })

        kafkaHelper.updateZkOffsets(offsetRanges)

      })

    ssc.start()

    ssc.awaitTermination()

    ssc.stop()

  }

}

sparkStreaming消费kafka-0.8方式：direct方式（存储offset到zookeeper）的更多相关文章

SparkStreaming获取kafka数据的两种方式：Receiver与Direct
简介: Spark-Streaming获取kafka数据的两种方式-Receiver与Direct的方式,可以简单理解成: Receiver方式是通过zookeeper来连接kafka队列, Dire ...
SparkStreaming与Kafka，SparkStreaming接收Kafka数据的两种方式
SparkStreaming接收Kafka数据的两种方式 SparkStreaming接收数据原理一.SparkStreaming + Kafka Receiver模式二.SparkStreami ...
sparkStreaming消费kafka-1.0.1方式：direct方式（存储offset到zookeeper）-- 2
参考上篇博文:https://www.cnblogs.com/niutao/p/10547718.html 同样的逻辑,不同的封装 package offsetInZookeeper /** * Cr ...
sparkStreaming消费kafka-1.0.1方式：direct方式（存储offset到zookeeper）
版本声明: kafka:1.0.1 spark:2.1.0 注意:在使用过程中可能会出现servlet版本不兼容的问题,因此在导入maven的pom文件的时候,需要做适当的排除操作 <?xml ...
SparkStreaming消费kafka中数据的方式
有两种:Direct直连方式.Receiver方式 1.Receiver方式: 使用kafka高层次的consumer API来实现,receiver从kafka中获取的数据都保存在spark exc ...
Spark-Streaming获取kafka数据的两种方式：Receiver与Direct的方式
简单理解为:Receiver方式是通过zookeeper来连接kafka队列,Direct方式是直接连接到kafka的节点上获取数据 Receiver 使用Kafka的高层次Consumer API来 ...
解析SparkStreaming和Kafka集成的两种方式
spark streaming是基于微批处理的流式计算引擎,通常是利用spark core或者spark core与spark sql一起来处理数据.在企业实时处理架构中,通常将spark strea ...
工具篇-Spark-Streaming获取kafka数据的两种方式（转载）
转载自:https://blog.csdn.net/weixin_41615494/article/details/7952173 一.基于Receiver的方式原理 Receiver从Kafka中 ...
spark-streaming获取kafka数据的两种方式
简单理解为:Receiver方式是通过zookeeper来连接kafka队列,Direct方式是直接连接到kafka的节点上获取数据一.Receiver方式: 使用kafka的高层次Consumer ...

随机推荐

Vue 核心之数据劫持
前端界空前繁荣,各种框架横空出世,包括各类mvvm框架横行霸道,比如Angular.Regular.Vue.React等等,它们最大的优点就是可以实现数据绑定,再也不需要手动进行DOM操作了,它们实现 ...
数字证书及CA的扫盲介绍
★ 先说一个通俗的例子考虑到证书体系的相关知识比较枯燥.晦涩.俺先拿一个通俗的例子来说事儿. ◇ 普通的介绍信想必大伙儿都听说过介绍信的例子吧?假设 A 公司的张三先生要到 B 公司去拜访,但是 ...
004_为什么不推荐APP使用SSL-PINNING
背景之前工作的经历,前面技术团队的APP使用了SSL-PINNING,服务器SSL证书到期前,测试环境更换证书,在更换配置OK后,发现APP停止服务了.所有的请求全部都失败. 后来查到是APP使用了 ...
RF运行脚本报错：WebDriverException: Message: unknown error: call function result missing
原因:浏览器驱动与浏览器版本不对应
tcpdump抓取mysql语句
抓包工具tcpdump的使用,抓取具体的sql语句 [root@test7_chat_api_im ~]# tcpdump -s -l - |strings tcpdump: listening on ...
bootstrap简单使用布局、栅格系统、modal标签页等常用组件入门
<!DOCTYPE html> <html> <head> <title>bootstrap</title> <!-- 引入boots ...
javascript for循环日期 select
2016年12月28日 20:01:54 星期三 html: <a href="aaaa">AAAA</a> <a href="bbbb&q ...
Css样式压缩、美化、净化工具源代码
主要功能如下: /* 美化:格式化代码,使之容易阅读 */ /* 净化:将代码单行化,并去除注释 */ /* 压缩:将代码最小化,加快加载速度 */ /* 以下是演示代码 */ /*reset beg ...
scrapy 在迭代爬取时被拒 offsite 增加dont_filter=True
VUE 图片验证码
1. 概述 1.1 说明在开发过程中,有时候需要使用图片验证码进行增加安全强度,在点击图片时更新新的图片验证码,记录此功能,以便后期使用. 2. 示例 2.1 vue示例代码 <templat ...

sparkStreaming消费kafka-0.8方式：direct方式（存储offset到zookeeper）

KafkaHelper：

驱动类：

sparkStreaming消费kafka-0.8方式：direct方式（存储offset到zookeeper）的更多相关文章

随机推荐

热门专题