如何获取流式应用程序中checkpoint的最新offset

对于流式应用程序，保证应用7*24小时的稳定运行，是非常必要的。因此对于计算引擎，要求必须能够适应与应用程序逻辑本身无关的问题（比如driver应用失败重启、网络问题、服务器问题、JVM崩溃等），具有自动容错恢复的功能。

目前，Spark（Spark Streaming/Structured Streaming）和Flink的checkpoint机制，就是处理类似情况，实现容错机制的核心利器。

对于Flink：

为了保证其高可用、Exactly Once的特性，提供了一套强大的checkpoint机制，它能够根据配置周期性地基于流中各个operator的状态来生成快照，从而将这些状态数据定期持久化存储下来，当Flink程序一旦出现故障时，能够将整个应用流程序恢复到故障前的某一种态，从而修正因为故障带来的程序数据状态中断。

对于Spark：

在流式应用中，Spark Streaming/Structured Streaming会将关于应用足够多的信息checkpoint到高可用、高容错的分布式存储系统，如HDFS中，以便从故障中进行恢复。checkpoint有两种类型的数据：

1. 数据checkpoint

对于一些复杂程序，比如跨多个批次组合数据的有状态转换，生成的RDD依赖于先前批次的RDD，导致依赖链的长度随批次的增加而增加。因为故障恢复时间与依赖链成正比，从而导致恢复时间也跟着增长。因此就有必要周期性的将RDD checkpoint到可靠的分布式存储系统中，以此切断依赖链。

这在Spark中的状态算子，如mapWithState、updateStateByKey中尤为常见。

2. 元数据checkpoint

顾名思义，就是将定义流式应用程序中的信息保存到容错系统中，用于从运行流应用程序的driver节点发生故障时，进行容错恢复。元数据包括：

a. 配置：用于创建流应用程序DStream操作：

b. 定义流应用程序的DStream操作集

c. 未完成的批次：未完成的批次job

本文的重点不在于checkpoint具体含义，而是以Spark为例，阐述如何通过程序获取checkpoint中最新的offset，以此为思路，来解决生产中的实际问题。

通常我们会checkpoint到HDFS，首先来看一下checkpoint信息：

offsets目录记录了每个批次中的offset，此目录中的第N条记录表示当前正在处理，第N-1个及之前的记录指示哪些偏移已处理完成。

/bigdatalearnshare/checkpointLocation/binlog-2-kafka/commits

/bigdatalearnshare/checkpointLocation/binlog-2-kafka/metadata

/bigdatalearnshare/checkpointLocation/binlog-2-kafka/offsets

/bigdatalearnshare/checkpointLocation/binlog-2-kafka/receivedData

/bigdatalearnshare/checkpointLocation/binlog-2-kafka/sources

hdfs dfs -ls /bigdatalearnshare/checkpointLocation/binlog-2-kafka/offsets

/bigdatalearnshare/checkpointLocation/binlog-2-kafka/offsets/0

/bigdatalearnshare/checkpointLocation/binlog-2-kafka/offsets/1

/bigdatalearnshare/checkpointLocation/binlog-2-kafka/offsets/2

hdfs dfs -cat /bigdatalearnshare/checkpointLocation/binlog-2-kafka/offsets/2

v1

{"batchWatermarkMs":0,"batchTimestampMs":1590632490083,"conf":{"spark.sql.streaming.stateStore.providerClass":"org.apache.spark.sql.execution.streaming.state.HDFSBackedStateStoreProvider","spark.sql.streaming.flatMapGroupsWithState.stateFormatVersion":"2","spark.sql.streaming.multipleWatermarkPolicy":"min","spark.sql.streaming.aggregation.stateFormatVersion":"2","spark.sql.shuffle.partitions":"1"}}

2400000001667289

最终获取最新offset的程序示例：

/**

  * @Author bigdatalearnshare

  */

object ReadOffsets {

  def main(args: Array[String]): Unit = {

    val path = "/bigdatalearnshare/checkpointLocation/binlog-2-kafka/offsets/2"

    val fs = FileSystem.get(new Configuration())

    val lastFile = fs.listStatus(new Path(path)).filterNot(_.getPath.getName.endsWith(".tmp.crc"))

      .map { fileName =>

        (fileName.getPath.getName.split("/").last.toInt, fileName.getPath)

      }.maxBy(_._1)._2

    val offset = readFile(lastFile.toString).split("\n").last

    assert("2400000001667289".equals(offset))

  }

  def readFile(path: String): String = {

    val fs = FileSystem.get(new Configuration())

    var br: BufferedReader = null

    var line: String = null

    val result = ArrayBuffer.empty[String]

    try {

      br = new BufferedReader(new InputStreamReader(fs.open(new Path(path))))

      line = br.readLine()

      while (line != null) {

        result += line

        line = br.readLine()

      }

    } finally {

      if (br != null) br.close()

    }

    result.mkString("\n")

  }

}

这一点在生产环境中还是有一定应用场景的，比如，通过解析mysql binlog日志，将数据同步到kafka，然后再通过消费者程序消费kafka中的数据保存到存储系统中，如delta，通过offset信息对比来校验，binlog到kafka的延迟（如，通过获取binlog中的offset信息与流程序同步到kafka时进行checkpoint的offset做对比）、kafka到存储系统中的延迟。

此外，要注意commits目录下记录的是已完成的批次信息。在实际进行offset比对时，要以此为基准再去获取offsets目录下的offsets信息。

关注微信公众号：大数据学习与分享，获取更对技术干货

如何获取流式应用程序中checkpoint的最新offset的更多相关文章

Citrix服务器虚拟化之三十 XenApp 6.5发布流式应用程序
Citrix服务器虚拟化之三十 XenApp 6.5发布流式应用程序 XenApp可发布以下类型的资源向用户提供信息访问,这 ...
翻译-In-Stream Big Data Processing 流式大数据处理
相当长一段时间以来,大数据社区已经普遍认识到了批量数据处理的不足.很多应用都对实时查询和流式处理产生了迫切需求.最近几年,在这个理念的推动下,催生出了一系列解决方案,Twitter Storm,Yah ...
流式处理的新贵 Kafka Stream - Kafka设计解析（七）
原创文章,转载请务必将下面这段话置于文章开头处. 本文转发自技术世界,原文链接 http://www.jasongj.com/kafka/kafka_stream/ Kafka Stream背景 Ka ...
流式处理新秀Flink原理与实践
随着大数据技术在各行各业的广泛应用,要求能对海量数据进行实时处理的需求越来越多,同时数据处理的业务逻辑也越来越复杂,传统的批处理方式和早期的流式处理框架也越来越难以在延迟性.吞吐量.容错能力以及使用便 ...
流式计算新贵Kafka Stream设计详解--转
原文地址:https://mp.weixin.qq.com/s?__biz=MzA5NzkxMzg1Nw==&mid=2653162822&idx=1&sn=8c4611436 ...
「Flink」理解流式处理重要概念
什么是流式处理呢? 这个问题其实我们大部分时候是没有考虑过的,大多数,我们是把流式处理和实时计算放在一起来说的.我们先来了解下,什么是数据流. 数据流(事件流) 数据流是无边界数据集的抽象我们之前接 ...
将动态库添加到VC程序中
应用程序使用DLL可以采用两种方式:一种是隐式链接,另一种是显式链接.在使用DLL之前首先要知道DLL中函数的结构信息.Visual C++6.0在VC\bin目录下提供了一个名为Dumpbin.ex ...
Apache Beam—透视Google统一流式计算的野心
Google是最早实践大数据的公司,目前大数据繁荣的生态很大一部分都要归功于Google最早的几篇论文,这几篇论文早就了以Hadoop为开端的整个开源大数据生态,但是很可惜的是Google内部的这些系 ...
Apple公司Darwin流式服务器源代码分析
当前,伴随着Internet的飞速发展,计算机网络已经进入到每一个普通人的家庭.在这个过程中,一个值得我们关注的现象是:Internet中存储和传输内容的构成已经发生了本质的改变,从传统的基于文本或少 ...

随机推荐

centos 开机启动服务 systemctl
systemctl 实现开机自启服务转载起一个好听的名字最后发布于2018-06-26 13:49:06 阅读数 13473 收藏展开 systemctl是RHEL 7 的服务管理工具中主要的 ...
【应用服务 App Service】快速获取DUMP文件(App Service for Windows(.NET/.NET Core))
问题情形当应用在Azure 应用服务App Service中运行时,有时候出现CPU,Memory很高,但是没有明显的5XX错误和异常日志,有时就是有异常但是也不能明确的指出具体的代码错误.当面临这 ...
分布式消息系统之Kafka集群部署
一.kafka简介 kafka是基于发布/订阅模式的一个分布式消息队列系统,用java语言研发,是ASF旗下的一个开源项目:类似的消息队列服务还有rabbitmq.activemq.zeromq:ka ...
ceil中有-0啊
这里主要是有一点: 1 Math.ceil(d1) ceil 方法上有这么一段注释:If the argument value is less than zero but greater ...
Parquet 源码解析
date: 2020-07-20 16:15:00 updated: 2020-07-27 13:40:00 Parquet 源码解析 Parquet文件是以二进制方式存储的,所以是不可以直接读取的, ...
Altium Designer中如何批量修改元器件封装？
我想你说的应该是altium里的封装管理库吧.1,Tools -> Footprint Manager -> ...2,在Component List里选择要改的器件3,在View and ...
vue-cli axios ie9 问题
vue在ie9中碰到的问题最近我们的项目选择用vue来做开发,在这个过程我们还要兼容ie9这个坑,在这里我写一点我碰到的坑开发选用:vue+vue-cli+axios+router+iview+m ...
硬核！15张图解Redis为什么这么快
作为一名服务端工程师,工作中你肯定和 Redis 打过交道.Redis 为什么快,这点想必你也知道,至少为了面试也做过准备.很多人知道 Redis 快仅仅因为它是基于内存实现的,对于其它原因倒是模棱两 ...
array_walk_recursive 地址引用报错的问题
今天看十八哥的视频,学习array_walk_recursive的用法,发现一直报错: PHP版本:5.6.19 代码界面: 报错界面: 查了很长时间,不知道什么问题,后来在网上终于找到原因所在: + ...
02_tcp_deadlock
# 这个程序我们是测试客户端和服务端在进行通信的过程中,可能会产生死锁的情况. # 这是因为缓冲区,和TCP协议的可靠性连接导致的. # 在程序中我们可以看到,客户端先向服务端发送数据,然后服务端就收 ...

如何获取流式应用程序中checkpoint的最新offset

如何获取流式应用程序中checkpoint的最新offset的更多相关文章

随机推荐

热门专题