Flink同步kafka到iceberg数据延迟，两个checkpoint后才可查询

一、问题描述

用户配置了高级参数很多，观察kafka增量数据不多，flink负载不高情况下两个checkpoint后才可查询到数据。排查时hdfs有数据文件产生，但是mainfast文件中最新快照id没变化。

二、原因

经腾讯排查，用户参数指定高级参数execution.checkpointing.unaligned: true引起。

写入iceberg时，flink writer算子收到checkpoint通知后会把本地内存数据写出到文件，写出成功时会把文件名提交给IcebergFilesCommitter。

正常情况是writter算子写出数据到文件后，把文件名先提交给Committer，Committer收到所有文件名后再去提交生成iceberg快照。

加上该参数后提交乱序，Committer算子存在只收到部分文件名就提交的情况，导致查询该快照没有最新数据。

加上该参数后，有些数据没处理情况下，这部分未提交数据放入state中，就可以做checkpoint，但是当前checkpoint没有处理这些消息。等到下个checkpoint时继续处理这些消息，生成文件名，继续commit，数据不会丢失，这部分数据文件在下个快照后才可查询。

该参数在flink1.11引入，直到flink1.18还不太稳定，默认没有打开，适用于某些task处理复杂极端情况下使用，使用该参数就可能产生数据延迟。

三、恢复

去除execution.checkpointing.unaligned: true参数，savepoint后启动。！！！存在启动不成功风险，我们用户尝试后可从savepoint恢复，但存在启动不了的风险。

Flink同步kafka到iceberg数据延迟，两个checkpoint后才可查询的更多相关文章

Flink同步Kafka数据到ClickHouse分布式表
公众号文章都在个人博客网站:https://www.ikeguang.com/ 同步,欢迎访问. 业务需要一种OLAP引擎,可以做到实时写入存储和查询计算功能,提供高效.稳健的实时数据服务,最终决定C ...
两个月后才更新一篇。。。。LIB和DLL的差别
共同拥有两种库: 一种是LIB包括了函数所在的DLL文件和文件里函数位置的信息(入口).代码由执行时载入在进程空间中的DLL提供,称为动态链接库dynamic link library. 一种是 ...
HBase2实战：HBase Flink和Kafka整合
1.概述 Apache官方发布HBase2已经有一段时间了,HBase2中包含了许多个Features,从官方JIRA来看,大约有4500+个ISSUES(查看地址),从版本上来看是一个非常大的版本了 ...
使用Apache Flink 和 Apache Hudi 创建低延迟数据湖管道
近年来出现了从单体架构向微服务架构的转变.微服务架构使应用程序更容易扩展和更快地开发,支持创新并加快新功能上线时间.但是这种方法会导致数据存在于不同的孤岛中,这使得执行分析变得困难.为了获得更深入和更 ...
Spark-Streaming获取kafka数据的两种方式：Receiver与Direct的方式
简单理解为:Receiver方式是通过zookeeper来连接kafka队列,Direct方式是直接连接到kafka的节点上获取数据 Receiver 使用Kafka的高层次Consumer API来 ...
SparkStreaming获取kafka数据的两种方式：Receiver与Direct
简介: Spark-Streaming获取kafka数据的两种方式-Receiver与Direct的方式,可以简单理解成: Receiver方式是通过zookeeper来连接kafka队列, Dire ...
spark-streaming获取kafka数据的两种方式
简单理解为:Receiver方式是通过zookeeper来连接kafka队列,Direct方式是直接连接到kafka的节点上获取数据一.Receiver方式: 使用kafka的高层次Consumer ...
SparkStreaming与Kafka，SparkStreaming接收Kafka数据的两种方式
SparkStreaming接收Kafka数据的两种方式 SparkStreaming接收数据原理一.SparkStreaming + Kafka Receiver模式二.SparkStreami ...
Flink消费Kafka数据并把实时计算的结果导入到Redis
1. 完成的场景在很多大数据场景下,要求数据形成数据流的形式进行计算和存储.上篇博客介绍了Flink消费Kafka数据实现Wordcount计算,这篇博客需要完成的是将实时计算的结果写到redis. ...
工具篇-Spark-Streaming获取kafka数据的两种方式（转载）
转载自:https://blog.csdn.net/weixin_41615494/article/details/7952173 一.基于Receiver的方式原理 Receiver从Kafka中 ...

随机推荐

golang模板库之fasttemplate
简介 fasttemplate是一个比较简单.易用的小型模板库.fasttemplate的作者valyala另外还开源了不少优秀的库,如大名鼎鼎的fasthttp,前面介绍的bytebufferpoo ...
PowerShell 重命名文件夹及删除空文件夹
数据来源 $urldata 中的倒数第2列(子文件夹名称列)包含 /.\ 等特殊字符某个文件夹重命名脚本 foreach ($i in 0..100) { # 提取路径部分 $basePath = ...
Codeforces Round 642 (Div3）
K-periodic Garland 给定一个长度位$n$的$01$串,每次操作可以将$1$变为$0$或者将$0$变为$1$,现在你需要通过操作使得所有$1$之间的距离为\ ...
如何TypeScript中相对优雅地实现类的多继承
首先,在 js 中还没有真正的多继承.但是在实际工作中经常需要抽离通用模块并按需组成新的业务模块,这就对类的多继承有了实际需求. 举个例子,现在我们有个基础类 Animal : class Anima ...
使用Tesseract进行图片文字识别
Tesseract介绍 Tesseract 是一个开源的光学字符识别(OCR)引擎,最初由 HP 在 1985 年至 1995 年间开发,后来被 Google 收购并开源.Tesseract 支持多种 ...
《JavaScript 模式》读书笔记（5）— 对象创建模式3
这一篇,我们主要来学习了解下沙箱模式以及静态成员的相关内容. 五.沙箱模式沙箱模式(sandbox pattern)解决了命名空间模式的如下几个缺点: 对单个全局变量的依赖变成了对应用程序的全局变量 ...
electron postinstall$ node install.js报错
本来以为是文件路径错了执行失败,手动去执行了下install.js,还是报错,但是不一样是连接超时试了几种办法,简单直接就是如下方法 1:从项目node_modules中找到electron下的in ...
【Java】【SpringBoot】CP03：热部署
This article is written by Xrilang(Chinese Name:萌狼蓝天) If you want find me ,You can contact me in Bil ...
【Linux】当初的学习笔记
目录 Linux 笔记 linux基本概念 linux终端四部分 linux的实质 linux系统操作命令查询用户 who who -H whoami 修改密码快速切换到用户目录 sshd sys ...
Python__FLASK__MySQL基础
1.数据库的基本操作创建数据库:使用"CREATE DATABASE 数据库名:"语句创建新的数据库查看数据库:使用"SHOW DATABASES:"语句查 ...

Flink同步kafka到iceberg数据延迟，两个checkpoint后才可查询

Flink同步kafka到iceberg数据延迟，两个checkpoint后才可查询的更多相关文章

随机推荐

热门专题