Apache Flink 的 Change Data Capture (CDC) 功能主要用于实时捕获数据库中的变更记录,并将其转换为事件流以供下游处理。为了保证全量和增量数据同步时数据的一致性、不丢失和不重复读取,Flink CDC 采用了以下策略:

一、保证一致性与不丢失

1、使用事务

当进行全量或增量同步时,Flink CDC通过与数据库的事务机制结合使用,Flink会将操作封装为一个事务,使用事务以确保数据的完整性和一致性。

Flink CDC 依赖于数据库的日志(如mysql binlog)来捕获事务级别的更改,意味着它能识别事务的开始和结束,从而确保在处理变更事件时保持事务的一致性。

2、幂等性处理(精准一次处理)

Flink 作为流处理引擎本身支持精确一次(exactly-once)的状态一致性保证,重复性变更数据,Flink CDC只会将其处理一次。通过 checkpoint 和两阶段提交机制,Flink 能够在故障恢复时准确地回滚或重放事件,从而避免数据丢失和重复处理。

如下游为iceberg v2表,iceberg支持去重

3、基于时间戳的检查点

Flink CDC使用基于时间戳的检查点机制来保证数据的不丢失。当进行全量同步时,Flink CDC使用数据库的全量数据时间戳确保读取到的全量数据是最新的。增量同步过程中,使用mysql binlog时间戳确保只读到修改变更。Flink会记录当前处理的位置,并在发生故障时从最近的检查点恢复,这样可以确保不会重复读取已经处理过的数据。

二、全量与增量衔接

1、全量同步阶段

在初次全量同步时,Flink CDC 可以通过扫描数据库表的全量数据并生成某一时刻对应的初始化快照来保证全量数据的一致性。然后开始同步全量数据到目标系统,保证目标库有完整数据副本。
2、增量同步阶段

完成全量同步之后,Flink CDC 会从日志中订阅后续的增量变更,从全量扫描时快照完成的时间点,开始同步数据库的binlog更新日志。增量数据以有序的方式被摄入到流处理系统中,与全量数据的末尾自然衔接。

3、全量和增量平滑过渡

在 Flink CDC 中,全量和增量数据可以无缝整合,确保了在任何给定时间点,下游系统的数据视图都是完整且最新的。

对于具有事务性的变更日志,全量快照和增量日志中的事件是可以按顺序叠加处理的,这样就能形成一个完整的、一致的数据视图。

通过这些机制,Flink CDC 实现了全量数据导入和增量数据实时追加之间的平滑过渡,有效保证了数据的完整性与一致性。

Flink CDC全量和增量同步数据如何保证数据的一致性的更多相关文章

  1. datax实例——全量、增量同步

    一.全量同步 本文以mysql -> mysql为示例: 本次测试的表为mysql的系统库-sakila中的actor表,由于不支持目的端自动建表,此处预先建立目的表: CREATE TABLE ...

  2. MySQL数据以全量和增量方式,同步到ES搜索引擎

    本文源码:GitHub·点这里 || GitEE·点这里 一.配置详解 场景描述:MySQL数据表以全量和增量的方式向ElasticSearch搜索引擎同步. 1.下载内容 elasticsearch ...

  3. MySQL5.7.18 备份、Mysqldump,mysqlpump,xtrabackup,innobackupex 全量,增量备份,数据导入导出

    粗略介绍冷备,热备,温暖,及Mysqldump,mysqlpump,xtrabackup,innobackupex 全量,增量备份 --备份的目的 灾难恢复:意外情况下(如服务器宕机.磁盘损坏等)对损 ...

  4. 全量、增量数据在HBase迁移的多种技巧实践

    作者经历了多次基于HBase实现全量与增量数据的迁移测试,总结了在使用HBase进行数据迁移的多种实践,本文针对全量与增量数据迁移的场景不同,提供了1+2的技巧分享. HBase全量与增量数据迁移的方 ...

  5. 关于Subversion主从备份方式的调整(全量、增量脚本)更新

    本文引用于http://blog.chinaunix.net/uid-25266990-id-3369172.html 之前对Subversion服务器作了迁移,关于SVN的架构也走了调整,有单一的服 ...

  6. innobackupex在线备份及恢复(全量和增量)

    Xtrabackup是由percona开发的一个开源软件,它是innodb热备工具ibbackup(收费的商业软件)的一个开源替代品.Xtrabackup由个部分组成:xtrabackup和innob ...

  7. Mysql备份工具xtraback全量和增量测试

    Mysql备份工具xtraback全量和增量测试   xtrabackup 是 percona 的一个开源项目,可以热备份innodb ,XtraDB,和MyISAM(会锁表) 官方网址http:// ...

  8. ETL全量多表同步简述

    ETL全量多表同步简述 1. 实现需求 当原数据库的表有新增.更新.删除操作时,将改动数据同步到目标库对应的数据表. 2. 设计思路 设计总体流程图如下: 1.获取同步表名如下图: 2.循环迁移数据如 ...

  9. ETL全量单表同步简述

    ETL全量单表同步简述 1. 实现需求 当原数据库的表有新增.更新.删除操作时,将改动数据同步到目标库对应的数据表. 2. 设计思路 设计总体流程图如下: 注意点: 1.数据库合并时,选择正确的数据源 ...

  10. mysql全量和增量备份详解(带脚本)

    在日常运维工作中,对mysql数据库的备份是万分重要的,以防在数据库表丢失或损坏情况出现,可以及时恢复数据. 下面对这种备份方案详细说明下:1.MySQLdump增量备份配置执行增量备份的前提条件是M ...

随机推荐

  1. 鸿蒙NEXT开发案例:温度转换

    [引言] 温度是日常生活中常见的物理量,但不同国家和地区可能使用不同的温度单位,如摄氏度(Celsius).华氏度(Fahrenheit).开尔文(Kelvin).兰氏度(Rankine)和列氏度(R ...

  2. LonEle 操作的 SQL Server 数据库(msde2000)由 20180418 版更新至 20190328 版(非官方)

    Shanghai Mitsubishi Elevator Co., Ltd(上海三菱电梯有限公司) 的 Comprehensive Elevator Monitoring System (电梯综合监控 ...

  3. 在PlatformIO IDE中对ESP32的CPU主频等进行配置

    前言 rt,有一天开发中需要尽可能发挥ESP32的全部性能,提高主频自然是首选,在Arduino IDE中修改主频很方便,但在PlatformIO IDE中修改主频的方法网上说的却很少,今天就总结一下 ...

  4. MongoDB|TOMCAT定时切割日志文件的脚本

    MongoDB用过一段时间后,日志较大,需要定时进行日志切割. 一.切割bash: splitlogmongo.sh #!/bin/bash log_dir="/home/mongodb/l ...

  5. sqlserver查询某数据库下表的占用空间

    要查看 SQL Server 中哪个表占用的空间最多,您可以使用以下查询来列出所有表及其占用的空间大小,并按照占用空间从大到小进行排序: SELECT t.NAME AS TableName, p.r ...

  6. ng-alain: st 简化表格

    https://github.com/ng-alain/delon/blob/master/packages/abc/st/index.zh-CN.md st 并不是在创造另一个表格组件,而是在 nz ...

  7. kubeadm卸载清空k8s环境

    #!/bin/bash kubeadm reset -f modprobe -r ipip lsmod rm -rf ~/.kube/ rm -rf /etc/kubernetes/ rm -rf / ...

  8. WebSocket从入门到精通,半小时就够!

    本文原题"WebSocket:5分钟从入门到精通",作者"程序猿小卡_casper",原文链接见文末参考资料部分.本次收录时有改动. 1.引言 自从HTML5里 ...

  9. 按部就班--从零开始建设k8s监控(二)

    前言 书接上文,prometheus已经安装好了,并且能够对k8s的整体状态进行监控,但是我们还需要更多 环境准备 组件 版本 操作系统 Ubuntu 22.04.4 LTS docker 24.0. ...

  10. R语言画图常用参数

    plot(x,xlab = "degree",ylab = "number of nodes",main = "mRNA degree distrib ...