flink⼿手动维护kafka偏移量量

flink对接kafka，官方模式方式是自动维护偏移量

但并没有考虑到flink消费kafka过程中，如果出现进程中断后的事情! 如果此时，进程中段:

1:数据可能丢失

从获取了了数据，但是在执⾏行行业务逻辑过程中发⽣生中断，此时会出现丢失数据现象

2:数据可能重复处理理

flink从kafka拉去数据过程中，如果此时flink进程挂掉，那么重启flink之后，会从当前Topic的起始偏移量量开始消费

解决flink消费kafka的弊端

上述问题，在任何公司的实际⽣生产中，都会遇到，并且⽐比较头痛的事情，主要原因是因为上述的代码是使⽤用flink⾃自动维护kafka的偏移量量，导致⼀一些实际⽣生产问题出现。~那么为了了解决这些问题，我们就需要⼿手动维护kafka的偏移量量，并且保证kafka的偏移量量和flink的checkpoint的数据状态保持⼀一致 (最好是⼿手动维护偏移量量的同时，和现有业务做成事务放在⼀一起)~

1）：offset和checkpoint绑定

//创建kafka数据流

val properties = new Properties() properties.setProperty("bootstrap.servers", GlobalConfigUtils.getBootstrap) properties.setProperty("zookeeper.connect", GlobalConfigUtils.getZk) properties.setProperty("group.id", GlobalConfigUtils.getConsumerGroup) properties.setProperty("enable.auto.commit" , "true")//TODO properties.setProperty("auto.commit.interval.ms" , "5000") properties.setProperty("auto.offset.reset" , "latest") properties.put("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer"); properties.put("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");

val kafka09 = new FlinkKafkaConsumer09[String](

  GlobalConfigUtils.getIntputTopic,

  new SimpleStringSchema(),

  properties

)

/** *

如果checkpoint启⽤用，当checkpoint完成之后，Flink Kafka Consumer将会提交offset保存 到checkpoint State中，

这就保证了了kafka broker中的committed offset与 checkpoint stata中的offset相⼀一致。 ⽤用户可以在Consumer中调⽤用setCommitOffsetsOnCheckpoints(boolean) ⽅方法来选择启⽤用 或者禁⽤用offset committing(默认情况下是启⽤用的)

* */

kafka09.setCommitOffsetsOnCheckpoints(true)

kafka09.setStartFromLatest()//start from the latest record

kafka09.setStartFromGroupOffsets()

//添加数据源addSource(kafka09)

val data: DataStream[String] = env.addSource(kafka09)

2）：编写flink⼿手动维护kafka偏移量量

/**

* ⼿手动维护kafka的偏移量量 */

object KafkaTools {

  var offsetClient: KafkaConsumer[Array[Byte], Array[Byte]] = null

  var standardProps:Properties = null

  def init():Properties = {

    standardProps = new Properties

    standardProps.setProperty("bootstrap.servers",

GlobalConfigUtils.getBootstrap)

    standardProps.setProperty("zookeeper.connect", GlobalConfigUtils.getZk)

    standardProps.setProperty("group.id",

GlobalConfigUtils.getConsumerGroup)

    standardProps.setProperty("enable.auto.commit" , "true")//TODO

    standardProps.setProperty("auto.commit.interval.ms" , "")

    standardProps.setProperty("auto.offset.reset" , "latest")

    standardProps.put("key.deserializer",

"org.apache.kafka.common.serialization.StringDeserializer");

    standardProps.put("value.deserializer",

"org.apache.kafka.common.serialization.StringDeserializer");

    standardProps

}

  def getZkUtils():ZkUtils = {

    val zkClient = new ZkClient("hadoop01:2181")

    ZkUtils.apply(zkClient, false)

}

  def createTestTopic(topic: String, numberOfPartitions: Int,

replicationFactor: Int, topicConfig: Properties) = {

    val zkUtils = getZkUtils()

    try{

      AdminUtils.createTopic(zkUtils, topic, numberOfPartitions,

replicationFactor, topicConfig)

    }finally {

      zkUtils.close()

} }

  def offsetHandler() = {

    val props = new Properties

    props.putAll(standardProps)

    props.setProperty("key.deserializer",

"org.apache.kafka.common.serialization.ByteArrayDeserializer")

props.setProperty("value.deserializer",

"org.apache.kafka.common.serialization.ByteArrayDeserializer")

    offsetClient = new KafkaConsumer[Array[Byte], Array[Byte]](props)

  }

  def getCommittedOffset(topicName: String, partition: Int): Long = {

    init()

    offsetHandler()

    val committed = offsetClient.committed(new TopicPartition(topicName,

partition))

    println(topicName , partition , committed.offset())

    if (committed != null){

      committed.offset

    } else{

0L

} }

  def setCommittedOffset(topicName: String, partition: Int, offset: Long) {

    init()

    offsetHandler()

    var partitionAndOffset:util.Map[TopicPartition , OffsetAndMetadata] =

new util.HashMap[TopicPartition , OffsetAndMetadata]()

    partitionAndOffset.put(new TopicPartition(topicName, partition), new

OffsetAndMetadata(offset))

    offsetClient.commitSync(partitionAndOffset)

  }

  def close() {

    offsetClient.close()

}

}

flink⼿手动维护kafka偏移量量的更多相关文章

spark streaming中维护kafka偏移量到外部介质
spark streaming中维护kafka偏移量到外部介质以kafka偏移量维护到redis为例. redis存储格式使用的数据结构为string,其中key为topic:partition, ...
SparkStreaming消费Kafka，手动维护Offset到Mysql
目录说明整体逻辑 offset建表语句代码实现说明当前处理只实现手动维护offset到mysql,只能保证数据不丢失,可能会重复要想实现精准一次性,还需要将数据提交和offset提交维护在 ...
spark streaming读取kakfka数据手动维护offset
在spark streaming读取kafka的数据中,spark streaming提供了两个接口读取kafka中的数据,分别是KafkaUtils.createDstream,KafkaUtils ...
Flink SQL结合Kafka、Elasticsearch、Kibana实时分析电商用户行为
body { margin: 0 auto; font: 13px / 1 Helvetica, Arial, sans-serif; color: rgba(68, 68, 68, 1); padd ...
flink引出的kafka不同版本的兼容性
参考: 官网协议介绍:http://kafka.apache.org/protocol.html#The_Messages_Fetch kafka协议兼容性 http://www.cnblogs.c ...
构建一个flink程序,从kafka读取然后写入MYSQL
最近flink已经变得比较流行了,所以大家要了解flink并且使用flink.现在最流行的实时计算应该就是flink了,它具有了流计算和批处理功能.它可以处理有界数据和无界数据,也就是可以处理永远生产 ...
kafka之五：如何手动更新Kafka中某个Topic的偏移量
本文介绍如何手动跟新zookeeper中的偏移量.我们在使用kafka的过程中,有时候需要通过修改偏移量来进行重新消费.我们都知道offsets是记录在zookeeper中的,所以我们想修改offse ...
使用Flink时从Kafka中读取Array[Byte]类型的Schema
使用Flink时,如果从Kafka中读取输入流,默认提供的是String类型的Schema: val myConsumer = new FlinkKafkaConsumer08[String](&qu ...
An Overview of End-to-End Exactly-Once Processing in Apache Flink (with Apache Kafka, too!)
01 Mar 2018 Piotr Nowojski (@PiotrNowojski) & Mike Winters (@wints) This post is an adaptation o ...

随机推荐

关于Windows10内存随时间不断升高问题
问题描述电脑买了10个月了,头半年的运行内存都是正常的,基本不会超过60%,但是最近几个月发现自己电脑的运行内存会随时间不断地升高,关机后重启也无法解决这个问题QAQ 常见的症状为一开机,点开任务管 ...
GitHub从小白到熟悉<三>
上传文件
搭建集群版Eureka Server
注册中心作为微服务架构中的核心功能,其重要性不言而喻.所以单机版的Eureka Server在可靠性上并不符合现在的互联网开发环境.集群版的Eureka Server才是商业开发中的选择. Eurek ...
linux centos 安装jdk
1.先查看是否已经安装的有java java -version,如果有需要卸载的直接卸载 rpm -qa | grep java 下面这几个可以删除 java-1.7.0-ope ...
利用yaml文件管理资源
利用yaml配置文件管理资源 [root@master ~]# cat nginx-deployment.yaml apiVersion: apps/v1beta2 kind: Deployment ...
启动web项目报错：The server time zone value '�й��׼ʱ��' is unrecognized or represents more than one time zone.
解决: 在application.properties配置文件中的添加标红部分 spring.datasource.url=jdbc:mysql://127.0.0.1:3306/miaosha?se ...
vue--支付宝支付
1.支付宝支付:前端发起一个请求,后台返回一个页面,直接将返回的页面(一个表单),再执行表单提交 okFryOtherPayHandler(){ let reqBody = {}; reqBody.o ...
谷歌浏览器（Chrome）离线包的下载方法！
谷歌浏览器(Chrome)其实可以下载离线包,用离线包安装的好处,就是一次获得全部安装文件,不需要漫长的在线下载过程了! 下载地址:https://www.google.com/chrome/eula ...
LeetCode——等差数列划分
题目: 如果一个数列至少有三个元素,并且任意两个相邻元素之差相同,则称该数列为等差数列. 例如,以下数列为等差数列: 1, 3, 5, 7, 97, 7, 7, 73, -1, -5, -9 以下数列 ...
(转)FPS游戏服务器设计的问题
FPS游戏服务器设计的问题出处:http://www.byteedu.com/thread-20-1-1.html一.追溯去gameloft笔试,有一个题目是说: 叫你去设计一个FPS(第一人称射击 ...

flink⼿手动维护kafka偏移量量

flink⼿手动维护kafka偏移量量的更多相关文章

随机推荐

热门专题