sparkStreaming 与fafka直接方式进行消费者偏移量的保存如redis 里面避免代码改变与节点重启后的数据丢失与序列化问题

import java.util

import kafka.common.TopicAndPartition

import kafka.message.MessageAndMetadata

import kafka.serializer.StringDecoder

import org.apache.spark.SparkConf

import org.apache.spark.rdd.RDD

import org.apache.spark.streaming.dstream.InputDStream

import org.apache.spark.streaming.kafka.{HasOffsetRanges, KafkaUtils, OffsetRange}

import org.apache.spark.streaming.{Duration, StreamingContext}

import redis.clients.jedis.{Jedis, JedisPool, JedisPoolConfig}

object KafkaDricteRedis {

  def main(args: Array[String]): Unit = {

    val conf = new SparkConf().setAppName("redis").setMaster("local[*]")

    val ssc = new StreamingContext(conf,new Duration(5000))

    val groupid = "GB01" //组名

    val topic = "topic_bc"//topic 名

    //在redis中以 groupid/topic作为唯一标识 ，存储分区偏移量

    //在Reids 使用的时hash类型来存储

    val gtKey = groupid+"/"+topic

    //topic

    val topics = Set(topic)

    //zk地址

    val zkQuorum = "hadoop01:2181,hadoop02:2181,hadoop03:2181"

    //brokerList

    val brokerList = "hadoop04:9092,hadoop05:9092,hadoop06:9092"

    val kafkaParams = Map(

      // metadata.broker.list

      "metadata.broker.list"->brokerList,

      "group.id"->groupid,

      "auto.offset.reset"->kafka.api.OffsetRequest.SmallestTimeString

      //从头开始消费

    )

    //记录topic 、分区对应的偏移量偏移量，在创建InputDStream时作为参数传如

    //从这个偏移量开始读取

    var fromOffset = Map[TopicAndPartition,Long]()

    var kafkaDStream :InputDStream[(String,String)] = null

    //    获取一个jedis连接

    val conn = getConnection()

    // conn.flushDB()

    //jd.hget(groupid+topic,"")

    //获取全部的keys

    val values: util.Set[String] = conn.keys("*")

    //println(values)

    // [GB01/wordcount3]   分区数   偏移量

    //如果keys中包含 GB01/wordcount3这样的key,则表示以前读取过

    if(values.contains(gtKey)){

      //获取key 为GB01/wordcount3 下面所对应的（k,v）

      /**  conn.hgetAll(gtKey) GB01/wordcount3:

        * 1  888

        * 2  888

        * 3  888

        * 4  888

        */

      var allKey: util.Map[String, String] = conn.hgetAll(gtKey)

      //导入后，可以把Java中的集合转换为Scala中的集合

      import scala.collection.JavaConversions._

      var list: List[(String, String)] = allKey.toList

      //循环得到的(k,v)

      //这里面的 k 对应的是分区， v对应的是偏移量

      for (key <- list){ //这里的key是一个tuple类型

        //new一个TopicAndPartition 把 topic 和分区数传入

        val tp = new TopicAndPartition(topic,key._1.toInt)

        //把每个topic 分区 对应的偏移量传入

        fromOffset +=  tp -> key._2.toLong

        println("分区"+key._1+"偏移量为"+key._2)

      }

      //这里的是把数据（key ,value）是kafka 的key默认是null,

      //value 是kafka中的value

      val messageHandler =(mmd:MessageAndMetadata[String,String])=>{

        ( mmd.key(),mmd.message())

      }

      //创建一个InputDStream

      kafkaDStream= KafkaUtils.createDirectStream[String,String,StringDecoder,StringDecoder,(String,String)](ssc,

        kafkaParams,fromOffset,messageHandler)

    }else{

      //如果以前没有读取过，创建一个新的InputDStream

      kafkaDStream= KafkaUtils.createDirectStream[String,String,StringDecoder,StringDecoder](

        ssc,kafkaParams,topics

      )

    }

    //用来更新偏移量，OffsetRange中可以获取分区及偏移量

    var OffsetRangs = Array[OffsetRange]()

    //

    kafkaDStream.foreachRDD(kafkaRDD=> {

      //这里面的RDD是kafkaRDD ,可以转换为HasOffsetRange

      val ranges = kafkaRDD.asInstanceOf[HasOffsetRanges]

//      获取分区信息的集合

      OffsetRangs = ranges.offsetRanges

      //获取value，（key 默认是null，没有用）

      val map: RDD[String] = kafkaRDD.map(_._2)

      map.foreach(x=>print(""))

      //更新偏移量

      for (o <- OffsetRangs){

        //取出偏移量

        val offset = o.untilOffset

        //取出分区

        val partition = o.partition

        println("partition: "+partition)

        println("offset: "+offset)

        //把通过hset,把对应的partition和offset写入到redis中

        conn.hset(gtKey,partition.toString,offset.toString)

      }

    })

    ssc.start()

    ssc.awaitTermination()

  }

  //Jedis连接池

  def getConnection(): Jedis ={

    //new 一个JedisPoolConfig，用来设定参数

    val conf = new JedisPoolConfig()

    val pool = new JedisPool(conf,"192.168.121.12",6379)

    //最大连接数

    conf.setMaxTotal(20)

    //最大空闲数

    conf.setMaxIdle(20)

    val jedis = pool.getResource()

    //密码

    jedis.auth("test123")

    jedis

  }

sparkStreaming 与fafka直接方式进行消费者偏移量的保存如redis 里面避免代码改变与节点重启后的数据丢失与序列化问题的更多相关文章

UserView--第二种方式（避免第一种方式Set饱和），基于Spark算子的java代码实现
UserView--第二种方式(避免第一种方式Set饱和),基于Spark算子的java代码实现测试数据 java代码 package com.hzf.spark.study; import ...
-1-5 java 多线程概念进程线程区别联系 java创建线程方式线程组线程池概念线程安全同步同步代码块 Lock锁 sleep()和wait()方法的区别为什么wait(),notify(),notifyAll()等方法都定义在Object类中
本文关键词: java 多线程概念进程线程区别联系 java创建线程方式线程组线程池概念线程安全同步同步代码块 Lock锁 sleep()和wait()方法的区别为什么wait( ...
Linux服务器重启后IP变掉的处理方式
工作中有一台服务器为物理机,重启后IP就变掉了,影响到了使用,于是将服务器上的IP配置为静态方式,问题得以解决,具体如下: 1.登陆Linux服务器,cd /etc/sysconfig/network ...
sparkStreaming消费kafka-0.8方式：direct方式（存储offset到zookeeper）
生产中,为了保证kafka的offset的安全性,并且防止丢失数据现象,会手动维护偏移量(offset) 版本:kafka:0.8 其中需要注意的点: 1:获取zookeeper记录的分区偏移量 2: ...
Kafka连接SparkStreaming的两种方式
第一种方式代码: import org.apache.spark.storage.StorageLevel import org.apache.spark.{HashPartitioner, Spar ...
rocketmq 以广播方式实现消费者消费消息
package com.bfxy.rocketmq.model; import java.util.List; import org.apache.rocketmq.client.consumer.D ...
利用反射快速给Model实体赋值使用 Task 简化异步编程 Guid ToString 格式知多少？(GUID 格式) Parallel Programming-实现并行操作的流水线（生产者、消费者） c# 无损高质量压缩图片代码 8种主要排序算法的C#实现（一） 8种主要排序算法的C#实现（二）
试想这样一个业务需求:有一张合同表,由于合同涉及内容比较多所以此表比较庞大,大概有120多个字段.现在合同每一次变更时都需要对合同原始信息进行归档一次,版本号依次递增.那么我们就要新建一张合同历史表, ...
session 加入redis的实现代码方式
session,中文经常翻译为会话,其本来的含义是指有始有终的一系列动作/消息,比如打电话时从拿起电话拨号到挂断电话这中间的一系列过程可以称之为一个session.有时候我们可以看到这样的话&quo ...
初探内联方式的 onload="doSomething()"为何要加"()"？而js代码的 onload="doSomething" 和 addEventListener 为何不加"()"？
问题引入:在看<Jquery基础教程>第四版的时,P34页有这样一段话引用函数与调用函数这里在将函数指定为处理程序时,省略了后面的圆括号,只使用了函数名.如果带着圆括号,函数会被立即调 ...

随机推荐

Debian/Ubuntu pip default install to $HOME/.local
pip default install to $HOME/.local on Debian/Ubuntu After pip 8.1.1-2 on Debian or Ubuntu you can p ...
Centos7 php-fpm root 运行，执行 kill 等系统命令
Centos7 php-fpm root 运行,执行 kill 等系统命令前提当前系统安装的是宝塔环境,PHP的环境在如下的目录: /www/server/php/72/etc 1 修改 php- ...
iOS - UITableView中有两种重用Cell的方法
UITableView中有两种重用Cell的方法: - (id)dequeueReusableCellWithIdentifier:(NSString *)identifier; - (id)dequ ...
mysql之表格的关联关系
1.’基本模式有多对一,多对多,一对一.关联的两个基本组建为外键列和参照列典型的多对一模式,很普遍,如部门表和员工表,即一个部门可以有多个员工. 对于多对多的模式,就需要建立中间表,将其转换为多对一 ...
poj 2826
太自闭了...明明很水的说... 有三种为0的情况.一种是有水平,一种是没交点. 第三种有点难想啊.就是下面那个板子被上面的挡住了,,雨水进不去... 关键是我翻了翻discuss找到了这种数据,,但 ...
Hudson持续集成服务器的安装配置与使用
Hudson只是一个持续集成服务器(持续集成工具),要想搭建一套完整的持续集成管理平台, 还需要用到前面课程中所讲到的 SVN.Maven.Sonar等工具,按需求整合则可. 1.安装 JDK并配置 ...
PHP计算显示平均温度、五个最低及最高温度
<?php $month_temp = "78, 60, 62, 68, 71, 68, 73, 85, 66, 64, 76, 63, 81, 76, 73, 68, 72, 73, ...
VS开发入门一：VS常用快捷键大全，工欲善其事必先利其器只看标红的吧
1.快速using(这个的快捷键是ctrl+.)2.快速回到之前编辑的代码页面现在的项目动不动就几十个代码页面,经常需要在几个页面之间跳来跳去,这时就需要这两个快捷键:CTRL + - 向后定位,回到 ...
JavaScript基础知识（初识JS）
js的组成部分 1. ECMAScript : JS的基础语法变量数据类型,操作语句,函数 es3 es5 es6; 2.DOM : document object model : 文档对象模型: ...
day12 十二、开放封闭、装饰器
一.nonlocal关键词 # global # num = # def fn(): # global num # L>G 将局部的名字与全局统一 # num = # fn() # print( ...

sparkStreaming 与fafka直接方式 进行消费者偏移量的保存如redis 里面 避免代码改变与节点重启后的数据丢失与序列化问题

sparkStreaming 与fafka直接方式 进行消费者偏移量的保存如redis 里面 避免代码改变与节点重启后的数据丢失与序列化问题的更多相关文章

随机推荐

热门专题

sparkStreaming 与fafka直接方式进行消费者偏移量的保存如redis 里面避免代码改变与节点重启后的数据丢失与序列化问题

sparkStreaming 与fafka直接方式进行消费者偏移量的保存如redis 里面避免代码改变与节点重启后的数据丢失与序列化问题的更多相关文章