sparkStreaming 与fafka直接方式进行消费者偏移量的保存如redis 里面避免代码改变与节点重启后的数据丢失与序列化问题

import java.util

import kafka.common.TopicAndPartition

import kafka.message.MessageAndMetadata

import kafka.serializer.StringDecoder

import org.apache.spark.SparkConf

import org.apache.spark.rdd.RDD

import org.apache.spark.streaming.dstream.InputDStream

import org.apache.spark.streaming.kafka.{HasOffsetRanges, KafkaUtils, OffsetRange}

import org.apache.spark.streaming.{Duration, StreamingContext}

import redis.clients.jedis.{Jedis, JedisPool, JedisPoolConfig}

object KafkaDricteRedis {

  def main(args: Array[String]): Unit = {

    val conf = new SparkConf().setAppName("redis").setMaster("local[*]")

    val ssc = new StreamingContext(conf,new Duration(5000))

    val groupid = "GB01" //组名

    val topic = "topic_bc"//topic 名

    //在redis中以 groupid/topic作为唯一标识 ，存储分区偏移量

    //在Reids 使用的时hash类型来存储

    val gtKey = groupid+"/"+topic

    //topic

    val topics = Set(topic)

    //zk地址

    val zkQuorum = "hadoop01:2181,hadoop02:2181,hadoop03:2181"

    //brokerList

    val brokerList = "hadoop04:9092,hadoop05:9092,hadoop06:9092"

    val kafkaParams = Map(

      // metadata.broker.list

      "metadata.broker.list"->brokerList,

      "group.id"->groupid,

      "auto.offset.reset"->kafka.api.OffsetRequest.SmallestTimeString

      //从头开始消费

    )

    //记录topic 、分区对应的偏移量偏移量，在创建InputDStream时作为参数传如

    //从这个偏移量开始读取

    var fromOffset = Map[TopicAndPartition,Long]()

    var kafkaDStream :InputDStream[(String,String)] = null

    //    获取一个jedis连接

    val conn = getConnection()

    // conn.flushDB()

    //jd.hget(groupid+topic,"")

    //获取全部的keys

    val values: util.Set[String] = conn.keys("*")

    //println(values)

    // [GB01/wordcount3]   分区数   偏移量

    //如果keys中包含 GB01/wordcount3这样的key,则表示以前读取过

    if(values.contains(gtKey)){

      //获取key 为GB01/wordcount3 下面所对应的（k,v）

      /**  conn.hgetAll(gtKey) GB01/wordcount3:

        * 1  888

        * 2  888

        * 3  888

        * 4  888

        */

      var allKey: util.Map[String, String] = conn.hgetAll(gtKey)

      //导入后，可以把Java中的集合转换为Scala中的集合

      import scala.collection.JavaConversions._

      var list: List[(String, String)] = allKey.toList

      //循环得到的(k,v)

      //这里面的 k 对应的是分区， v对应的是偏移量

      for (key <- list){ //这里的key是一个tuple类型

        //new一个TopicAndPartition 把 topic 和分区数传入

        val tp = new TopicAndPartition(topic,key._1.toInt)

        //把每个topic 分区 对应的偏移量传入

        fromOffset +=  tp -> key._2.toLong

        println("分区"+key._1+"偏移量为"+key._2)

      }

      //这里的是把数据（key ,value）是kafka 的key默认是null,

      //value 是kafka中的value

      val messageHandler =(mmd:MessageAndMetadata[String,String])=>{

        ( mmd.key(),mmd.message())

      }

      //创建一个InputDStream

      kafkaDStream= KafkaUtils.createDirectStream[String,String,StringDecoder,StringDecoder,(String,String)](ssc,

        kafkaParams,fromOffset,messageHandler)

    }else{

      //如果以前没有读取过，创建一个新的InputDStream

      kafkaDStream= KafkaUtils.createDirectStream[String,String,StringDecoder,StringDecoder](

        ssc,kafkaParams,topics

      )

    }

    //用来更新偏移量，OffsetRange中可以获取分区及偏移量

    var OffsetRangs = Array[OffsetRange]()

    //

    kafkaDStream.foreachRDD(kafkaRDD=> {

      //这里面的RDD是kafkaRDD ,可以转换为HasOffsetRange

      val ranges = kafkaRDD.asInstanceOf[HasOffsetRanges]

//      获取分区信息的集合

      OffsetRangs = ranges.offsetRanges

      //获取value，（key 默认是null，没有用）

      val map: RDD[String] = kafkaRDD.map(_._2)

      map.foreach(x=>print(""))

      //更新偏移量

      for (o <- OffsetRangs){

        //取出偏移量

        val offset = o.untilOffset

        //取出分区

        val partition = o.partition

        println("partition: "+partition)

        println("offset: "+offset)

        //把通过hset,把对应的partition和offset写入到redis中

        conn.hset(gtKey,partition.toString,offset.toString)

      }

    })

    ssc.start()

    ssc.awaitTermination()

  }

  //Jedis连接池

  def getConnection(): Jedis ={

    //new 一个JedisPoolConfig，用来设定参数

    val conf = new JedisPoolConfig()

    val pool = new JedisPool(conf,"192.168.121.12",6379)

    //最大连接数

    conf.setMaxTotal(20)

    //最大空闲数

    conf.setMaxIdle(20)

    val jedis = pool.getResource()

    //密码

    jedis.auth("test123")

    jedis

  }

sparkStreaming 与fafka直接方式进行消费者偏移量的保存如redis 里面避免代码改变与节点重启后的数据丢失与序列化问题的更多相关文章

UserView--第二种方式（避免第一种方式Set饱和），基于Spark算子的java代码实现
UserView--第二种方式(避免第一种方式Set饱和),基于Spark算子的java代码实现测试数据 java代码 package com.hzf.spark.study; import ...
-1-5 java 多线程概念进程线程区别联系 java创建线程方式线程组线程池概念线程安全同步同步代码块 Lock锁 sleep()和wait()方法的区别为什么wait(),notify(),notifyAll()等方法都定义在Object类中
本文关键词: java 多线程概念进程线程区别联系 java创建线程方式线程组线程池概念线程安全同步同步代码块 Lock锁 sleep()和wait()方法的区别为什么wait( ...
Linux服务器重启后IP变掉的处理方式
工作中有一台服务器为物理机,重启后IP就变掉了,影响到了使用,于是将服务器上的IP配置为静态方式,问题得以解决,具体如下: 1.登陆Linux服务器,cd /etc/sysconfig/network ...
sparkStreaming消费kafka-0.8方式：direct方式（存储offset到zookeeper）
生产中,为了保证kafka的offset的安全性,并且防止丢失数据现象,会手动维护偏移量(offset) 版本:kafka:0.8 其中需要注意的点: 1:获取zookeeper记录的分区偏移量 2: ...
Kafka连接SparkStreaming的两种方式
第一种方式代码: import org.apache.spark.storage.StorageLevel import org.apache.spark.{HashPartitioner, Spar ...
rocketmq 以广播方式实现消费者消费消息
package com.bfxy.rocketmq.model; import java.util.List; import org.apache.rocketmq.client.consumer.D ...
利用反射快速给Model实体赋值使用 Task 简化异步编程 Guid ToString 格式知多少？(GUID 格式) Parallel Programming-实现并行操作的流水线（生产者、消费者） c# 无损高质量压缩图片代码 8种主要排序算法的C#实现（一） 8种主要排序算法的C#实现（二）
试想这样一个业务需求:有一张合同表,由于合同涉及内容比较多所以此表比较庞大,大概有120多个字段.现在合同每一次变更时都需要对合同原始信息进行归档一次,版本号依次递增.那么我们就要新建一张合同历史表, ...
session 加入redis的实现代码方式
session,中文经常翻译为会话,其本来的含义是指有始有终的一系列动作/消息,比如打电话时从拿起电话拨号到挂断电话这中间的一系列过程可以称之为一个session.有时候我们可以看到这样的话&quo ...
初探内联方式的 onload="doSomething()"为何要加"()"？而js代码的 onload="doSomething" 和 addEventListener 为何不加"()"？
问题引入:在看<Jquery基础教程>第四版的时,P34页有这样一段话引用函数与调用函数这里在将函数指定为处理程序时,省略了后面的圆括号,只使用了函数名.如果带着圆括号,函数会被立即调 ...

随机推荐

运用kmp算法解决的一些问题的简单题解
学习kmp算法我最后是看的数据结构书上的一本教材学会的..我认为kmp相对于普通的BF算法就是避免了非常多不必要的匹配.而kmp算法的精髓自然就在于next数组的运用...而next数组简而言之就是存 ...
22状态模式State
一.什么是状态模式 State模式也叫状态模式,是行为设计模式的一种.State模式允许通过改变对象的内部状态而改变对象的行为,这个对象表现得就好像修改了它的类一样. 二.状态模式的应用场景状 ...
【中间件安全】WebSphere安全加固规范
1. 适用情况适用于使用WebSphere进行部署的Web网站. 2. 技能要求熟悉WebSphere安装部署,熟悉WebSphere常见漏洞利用方式,并能针对站点使用WebSphere进行安全加 ...
Vivado Design Suite用户指南之约束的使用第二部分（约束方法论）
Constraints Methodology(约束方法论) 关于约束方法论设计约束定义了编译流程必须满足的要求,以使设计在板上起作用. 并非所有步骤都使用所有约束在编译流程中. 例如,物理约束仅在 ...
Android的Base64的坑
Base64.encodeToString加密后一直和Apache的对不上,多了换行符,最后使用了NO_WRAP就好了 Base64.encodeToString(src, Base64.URL_SA ...
No Ads for Blogs
最近浏览器出问题了还是博客园登录的问题. 每次进入自己博客都要输入密码. 然后进入某一篇博文查看时,底部总会有些垃圾广告. 怎么办呢. 好吧,真抱歉,为了营造良好的阅读环境,只好给你屏蔽掉了. 其实也 ...
10.31vue(一)
2018-10-31 19:58:45 耳机一个响一个不响,,,该换耳机了又换个新老师预计讲五天的vue后面的路飞项目用! 这是vue参考连接: https://www.cnblogs.com/ma ...
数组copy
数组copy(推荐用法) System.arraycopy的用法 int[] src = {1,3,5,7,9,11,13,15,17}; int[] dest = {2,4,6,8,10,12,14 ...
mybatis mapper-locations作用
application上配置了@MapperScan(扫面mapper类的路径)和pom.xml中放行了mapper.xml后,配置mapper-locations没有意义查找后得知,如果mappe ...
[No0000193]Chrome浏览器控制台（console）花式调试
对前端开发者来说,Chrome Dev Tools(开发者工具,以下简称CDT)是一个不可或缺的开发调试工具,但是你可能只用过console.log(),却不知道console还有很多功能强大的调试方 ...

sparkStreaming 与fafka直接方式 进行消费者偏移量的保存如redis 里面 避免代码改变与节点重启后的数据丢失与序列化问题

sparkStreaming 与fafka直接方式 进行消费者偏移量的保存如redis 里面 避免代码改变与节点重启后的数据丢失与序列化问题的更多相关文章

随机推荐

热门专题

sparkStreaming 与fafka直接方式进行消费者偏移量的保存如redis 里面避免代码改变与节点重启后的数据丢失与序列化问题

sparkStreaming 与fafka直接方式进行消费者偏移量的保存如redis 里面避免代码改变与节点重启后的数据丢失与序列化问题的更多相关文章