经常遇到这样的场景,13点-14点的时候flink程序发生了故障,或者集群崩溃,导致实时程序挂掉1小时,程序恢复的时候想把程序倒回13点或者更前,重新消费kafka中的数据.

下面的代码就是根据指定时间戳(也可以换算成时间)开始消费数据,支持到这样就灵活了,可以在启动命令中加个参数,然后再配个守护程序来控制程序.


flink代码

import java.util.Properties

import org.apache.flink.streaming.api.scala._
import org.apache.flink.streaming.connectors.kafka.FlinkKafkaConsumer010
import org.apache.flink.streaming.connectors.kafka.internals.KafkaTopicPartition
import org.cdp.kafka.KafkaOffsetFind object flinkkafka1 {
def main(args: Array[String]): Unit = { /** ***************************************************************************************************************
* kafka info
*/
val zkCluster = "localhost:2181"
val kafkaCluster = "localhost:9092"
val topic = "cdp20"
val timestamp = 1519804800000L /** ***************************************************************************************************************
* flink env
*/
val env = StreamExecutionEnvironment.getExecutionEnvironment /** ***************************************************************************************************************
* create kafka stream
*/
val props = new Properties()
props.setProperty("bootstrap.servers", kafkaCluster)
props.setProperty("zookeeper.connect", zkCluster)
props.put("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer")
props.put("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer")
props.setProperty("group.id", "cdp20-c1") /* ***********************************************************************************************************
* stream
*/
//找到时间戳对应偏移量
val offsetFinder = new KafkaOffsetFind[String]
val offset = offsetFinder.useTimestamp(timestamp,topic,props)
print(offset) val kafkaOffsets = new java.util.HashMap[KafkaTopicPartition, java.lang.Long]
for (o <- offset) {
kafkaOffsets.put(new KafkaTopicPartition(topic, o._1), o._2)
} //创建根据时间消费kafka的数据流
val kafkaTime = env
.addSource {
new FlinkKafkaConsumer010[String](topic,
new KeyedDeserializationSchemaWithKey(new DefaultStringDeserializer),
props)
.setStartFromSpecificOffsets(kafkaOffsets)
} /** ***************************************************************************************************************
* exec
*/ kafkaTime.print() /** ***************************************************************************************************************
* flink execute
*/
env.execute("flink-kafka") }
}

kafka根据时间找偏移量代码

import java.util
import java.util.Properties
import org.apache.kafka.clients.consumer.KafkaConsumer
import org.apache.kafka.common.TopicPartition
import scala.collection.JavaConverters._ /* ***********************************************************************************************************
* 作者:陈大炮
* 时间:2018-02-28
* 内容:根据时间消费kafka
* 使用unix时间戳,查找kafka分区对应的偏移量
*/ class KafkaOffsetFind[T] { //超时时间
val POLL_TIMEOUT = 2000 //使用时间查询
def useTimestamp(timestamp: Long, topic: String, kafkaProps: Properties): List[(Int, Long)] = { //创建消费者,获得消费者分区
val consumer = createConsumer(kafkaProps)
consumer.subscribe(util.Arrays.asList(topic))
consumer.poll(POLL_TIMEOUT)
val partitions = consumer.assignment().asScala.toList //拼出一个查询map
val findMap = new util.HashMap[TopicPartition, java.lang.Long]
partitions
.foreach {
c =>
findMap.put(new TopicPartition(topic, c.partition()), timestamp)
} //使用查询map去获得偏移量
val offsetMap = consumer.offsetsForTimes(findMap) //返回前关闭下消费者
consumer.close() //返回分区号和对应的偏移量
partitions.map {
p =>
(p.partition(), offsetMap.get(new TopicPartition(topic, 0)).offset())
} } //创建消费者
protected def createConsumer(kafkaProps: Properties): KafkaConsumer[String, T] = {
val props = kafkaProps.clone().asInstanceOf[Properties]
props.put("enable.auto.commit", "false")
props.put("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer")
props.put("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer")
new KafkaConsumer[String, T](props)
}
}

注意事项(由漂泊的美好提供)

1.使用KafkaConsumer.offsetsForTimes要确认集群已开启log.message.timestamp.type参数

2.client端要使用0.10.*的客户端发送数据,使用低版本会造成数据格式不同问题


参考内容

http://blog.csdn.net/forrest_ou/article/details/78978575

https://github.com/noris-network/KafkaOffsetFinder

flink 根据时间消费kafka的更多相关文章

  1. Flink(五) 【消费kafka】

    目录 0.目的 1.本地测试 2.线上测试 提交作业 0.目的 测试flink消费kafka的几种消费策略 kafkaSource.setStartFromEarliest() //从起始位置 kaf ...

  2. Flink消费Kafka到HDFS实现及详解

    1.概述 最近有同学留言咨询,Flink消费Kafka的一些问题,今天笔者将用一个小案例来为大家介绍如何将Kafka中的数据,通过Flink任务来消费并存储到HDFS上. 2.内容 这里举个消费Kaf ...

  3. Flink消费Kafka数据并把实时计算的结果导入到Redis

    1. 完成的场景 在很多大数据场景下,要求数据形成数据流的形式进行计算和存储.上篇博客介绍了Flink消费Kafka数据实现Wordcount计算,这篇博客需要完成的是将实时计算的结果写到redis. ...

  4. Flink消费kafka

    Flink消费Kafka https://blog.csdn.net/boling_cavalry/article/details/85549434 https://www.cnblogs.com/s ...

  5. Spark Streaming消费Kafka Direct方式数据零丢失实现

    使用场景 Spark Streaming实时消费kafka数据的时候,程序停止或者Kafka节点挂掉会导致数据丢失,Spark Streaming也没有设置CheckPoint(据说比较鸡肋,虽然可以 ...

  6. 17-Flink消费Kafka写入Mysql

    戳更多文章: 1-Flink入门 2-本地环境搭建&构建第一个Flink应用 3-DataSet API 4-DataSteam API 5-集群部署 6-分布式缓存 7-重启策略 8-Fli ...

  7. Spark streaming消费Kafka的正确姿势

    前言 在游戏项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端,我们利用了spark streaming从kafka中不 ...

  8. 《从0到1学习Flink》—— Flink 写入数据到 Kafka

    前言 之前文章 <从0到1学习Flink>-- Flink 写入数据到 ElasticSearch 写了如何将 Kafka 中的数据存储到 ElasticSearch 中,里面其实就已经用 ...

  9. Spark Streaming消费Kafka Direct保存offset到Redis,实现数据零丢失和exactly once

    一.概述 上次写这篇文章文章的时候,Spark还是1.x,kafka还是0.8x版本,转眼间spark到了2.x,kafka也到了2.x,存储offset的方式也发生了改变,笔者根据上篇文章和网上文章 ...

随机推荐

  1. 沉淀,再出发:Docker的功能浅析

    沉淀,再出发:Docker的功能浅析 一.前言 这段时间一直在使用docker,发现docker的技术有很多,从最开始的将自己的程序打包成docker中的镜像,然后上传和下载镜像并使用,再到后来的在集 ...

  2. Java 多态(接口)

    有两种意义的多态,一是操作名称的多态,即有多个操作具有相同的名字,但这些操作所接收的消息类型必须不同(方法重载).另一种多态是和继承有关的多态,是指同一个操作被不同类型对象调用时可能产生不同的行为(方 ...

  3. 自定义控件(视图)2期笔记13:View的滑动冲突之 内部拦截法

    1. 内部拦截法: 父容器不拦截事件,所有的事件全部都传递给子元素,如果子元素需要此事件就直接消耗掉,否则就交给父容器进行处理. 这种方法和Android中的事件分发机制不一样,需要配合request ...

  4. [WebKit] JavaScriptCore解析--基础篇 (一)JSC与WebCore

    先看一下官方的基本介绍,短短几句就塞满了关键字. SquirrelFish,正式名称是JavaScriptCore,包括register-based(基于寄存器的虚拟机), direct-thread ...

  5. 用Web技术开发客户端(一)

    http://www.cnblogs.com/lefan/archive/2012/12/27/2836400.html 范怀宇(@duguguiyu)分享了<豌豆荚2.0重构时遇到的坑> ...

  6. 【[POI2010]ANT-Antisymmetry】

    开始复习字符串了 第一步肯定得是\(hash\) 首先理性分析一波不可能出现长度为奇数的反回文串,对称轴位置取反之后肯定和原来不相等了 我们可以枚举所有回文串的对称中心,之后我们发现这个样子是具有单调 ...

  7. C/C++——赋值理解(匿名临时对象)

    对三,王炸: 赋值的本质,是将变量传递给一个匿名临时变量,之后再传递给另一个变量.  匿名临时对象: #include <iostream> using namespace std; cl ...

  8. Tomcat中Pipeline

    Pipeline 节选部分源码.源码版本 Tomcat8.5 处理模式 Pipeline--Valve是一种责任链模式,它和普通责任链模式有两点区别: 每个Pipeline都是有特定的Valve,而且 ...

  9. FCC Truncate a string 解决方法

    三行搞定 function truncate(str, num) { ab = str.length >num?num>3?str.slice(0,num-3)+ "...&qu ...

  10. Python 学习笔记(十五)Python类拓展(二)方法

    方法 绑定方法和非绑定方法 绑定方法和非绑定方法在创建时没有任何区别,同一方法,既可以为绑定方法,也可以为非绑定方法,一切不同都只在调用时的手法上有所区别. 绑定方法即该方法绑定类的一个实例上,必须将 ...