MySQL CDC (Change Data Capture),中文名为MySQL变化数据捕获,是一种截取MySQL主从复制流中binlog的技术,从而实时捕获数据库中的增、删、改操作。在大数据、实时计算、数据集成等领域都有广泛应用。本文将从多个方面对MySQL CDC做详细阐述,让你全面了解其背后的原理和应用场景。

一、基本原理

MySQL CDC的基本原理是使用MySQL提供的binlog,通过解析binlog中的事件来得到数据库中的增、删、改操作。具体实现步骤如下:

1、首先在MySQL中通过配置参数启用binlog,使得MySQL开始记录MySQL实例的所有数据更改操作;

[mysqld]
log-bin=mysql-bin
binlog-format=ROW
binlog-row-image=full

2、使用支持MySQL协议的binlog消费者(如Debezium、Maxwell等)连接到MySQL实例的binlog,并开始实时从binlog中截取数据;

3、解析binlog内容,获取其中的事务和事务中对数据进行的操作;

{
"database": "testdb",
"table": "user",
"type": "insert",
"ts": 1633093513,
"xid": 1,
"commit": 1,
"data": {
"id": "1",
"name": "张三",
"age": 24
}
}

4、将解析后的数据推送到下游处理过程(如实时计算引擎、数据仓库、缓存等)。

二、应用场景

MySQL CDC的应用场景广泛,下面介绍其中几个典型应用场景。

1、实时数据同步

当企业应用系统需要将MySQL的数据同步到其他数据源(如缓存、数据仓库、搜索引擎等)时,可以使用MySQL CDC实现实时数据同步。通过截取MySQL主从复制流中的binlog,将数据实时同步到其他目标数据源,实现数据的最新状态。

2、实时计算

MySQL CDC可以将数据变更事件实时推送到流式计算引擎(如Apache Flink、Apache Spark等)进行实时计算和分析。通过将实时计算的结果写回MySQL中,可以实现实时的数据统计、分析和决策。

3、数据集成

MySQL CDC可作为数据集成的中间层,通过解析binlog实现异构数据的读取和写入。例如可以将MySQL中的数据同步到MongoDB中,或将Kafka中的数据写入MySQL中。这样,在各个数据系统之间就可以实现快速、实时、可靠的数据集成。

三、实战案例

下面通过一个简单的实战案例来介绍如何使用MySQL CDC实现实时数据同步。

1、安装Debezium Connector

Debezium Connector是一种流行的开源的CDC实现,支持从MySQL、PostgreSQL等关系型数据库中提取数据变更并将其广播到Kafka。

如下是使用Docker安装Debezium Connector:

docker run -it --rm --name debezium -p 8083:8083 debezium/connect

2、创建MySQL实例和新表

create database demo;

use demo;

create table user (
id int primary key auto_increment,
name varchar(50) not null,
age int not null
);

3、启用binlog

在MySQL的配置文件中,设置启用binlog:

[mysqld]
log-bin=mysql-bin
binlog-format=ROW
binlog-row-image=full

然后重启MySQL实例,使binlog参数生效。

4、创建Debezium连接

执行以下curl命令,创建与MySQL实例的连接。

curl -i -X POST -H "Accept:application/json" -H "Content-Type:application/json" localhost:8083/connectors/ -d '
{
"name": "demo-connector",
"config": {
"connector.class":
"io.debezium.connector.mysql.MySqlConnector",
"database.hostname": "mysql",
"database.port": "3306",
"database.user": "root",
"database.password": "root",
"database.server.id": "1",
"database.server.name": "test",
"database.include.list": "demo",
"table.include.list": "demo.user",
"database.history.kafka.bootstrap.servers": "kafka:9092",
"database.history.kafka.topic": "schema-changes.demo"
}
}'

5、查看数据变更

现在我们可以通过监控Kafka中的实时数据变更事件来捕获MySQL的数据变更信息了。执行以下命令,查看demo.user表的变更事件:

docker run -it --rm --name debezium-toolkit --link debezium:kafka --network mysql-cdc_default debezium/tooling debezium-connector-mysql/bin/mysqlbinlog --raw --verbose -d demo -t user --schema=test --host=kafka --port=9092

在另一个终端窗口中,进行如下的MySQL插入操作,向demo.user表中插入一条数据:

use demo;

insert into user(name, age) values('john', 18);

插入完成后,Debezium即会输出以下信息表示成功推送该数据变更:

#...chunk of binlog...

{
"database": "demo",
"table": "user",
"type": "insert",
"ts": 1633093513,
"xid": 1,
"commit": 1,
"data": {
"id": "1",
"name": "john",
"age": 18
}
}

四、总结

MySQL CDC通过解析MySQL主从复制流中的binlog,捕获并推送数据库中的数据变更事件,为实时数据同步、实时计算和数据集成提供了有效手段。但在使用MySQL CDC时,需要注意以下几个方面:

1、binlog性能开销。当binlog文件过大时,可能会对MySQL实例造成性能开销;

2、并发访问和数据同步。使用MySQL CDC实现数据同步时,需要考虑多个数据源、并发访问、重复数据等问题;

3、CDC数据的精确度。使用MySQL CDC捕获变化数据时,需要考虑数据变更的精确度,例如在UPDATE语句中SET字段的顺序可能对捕获的结果产生影响。

MySQL-CDC原理与实践的更多相关文章

  1. mysql主从复制原理及实践

    Mysql主从复制原理及实践 mysql主从框架       MySQL主从架构是MySQL集群中最基本也是最常用的一种架构部署,能够满足很多业务需求,常见的有一主一从或者一主多从.可以防止单一主机的 ...

  2. mysql 复制原理与实践

    复制功能是将一个mysql数据库上的数据复到一个或多个mysql从数据库上. 复制的原理:在主服务器上执行的所有DDL和DML语句都会被记录到二进制日志中,这些日志由连接到它的从服务器获取,并复制到从 ...

  3. 05-雷海林-mysql备份原理与在TDSQL中的实践

    05-雷海林-mysql备份原理与在TDSQL中的实践 下载地址: http://files.cnblogs.com/files/MYSQLZOUQI/05-%E9%9B%B7%E6%B5%B7%E6 ...

  4. 学一点 MYSQL 双机异地热备份—-MYSQL主从,主主备份原理及实践

    简单介绍mysql双机,多机异地热备简单原理实战. 双机热备的概念简单说一下,就是要保持两个数据库的状态自动同步.对任何一个数据库的操作都自动应用到另外一个数据库,始终保持两个数据库数据一致. 这样做 ...

  5. MySQL主从复制介绍:使用场景、原理和实践

    MySQL主从复制介绍:使用场景.原理和实践 MySQL数据库的主从复制方案,和使用scp/rsync等命令进行的文件级别复制类似,都是数据的远程传输,只不过MySQL的主从复制是其自带的功能,无需借 ...

  6. MySQL主从复制的原理和实践操作

    MySQL 主从(MySQL Replication),主要用于 MySQL 的实时备份.高可用HA.读写分离.在配置主从复制之前需要先准备 2 台 MySQL 服务器. 一.MySQL主从原理 1. ...

  7. Atitit.软件兼容性原理与实践 v5 qa2.docx

    Atitit.软件兼容性原理与实践   v5 qa2.docx 1. Keyword2 2. 提升兼容性的原则2 2.1. What 与how 分离2 2.2. 老人老办法,新人新办法,只新增,少修改 ...

  8. Mysql主从复制原理及配置

    Mysql主从复制原理及配置 1.复制概述 Mysql内建的复制功能是构建大型,高性能应用程序的基础.将Mysql的数据分布到多个系统上去,这种分布的机制,是通过将Mysql的某一台主机的数据复制到其 ...

  9. 网络对抗课题4.3.1 SQL注入原理与实践

    网络对抗课题4.3.1 SQL注入原理与实践 原理 SQL注入漏洞是指在Web应用对后台数据库查询语句处理存在的安全漏洞.也就是,在输入字符串中嵌入SQL指令,在设计程序中忽略对可能构成攻击的特殊字符 ...

  10. 搞懂分布式技术10:LVS实现负载均衡的原理与实践

    搞懂分布式技术10:LVS实现负载均衡的原理与实践 浅析负载均衡及LVS实现 原创: fireflyc 写程序的康德 2017-09-19 负载均衡 负载均衡(Load Balance,缩写LB)是一 ...

随机推荐

  1. Liunx常用操作(六)-压缩与解压缩(打包/解包)

    liunx上面的压缩与解压缩(打包/解包)有以下几种命令可以实现 源文件001.txt 如下: 一.zip 特点:方便的与Windows之间通用 打包命令: zip 001.zip 001.txt 解 ...

  2. CS2打开可以听到声音,但黑屏问题?

    1.问题 我这里原先是可以启动CS2的,但是后来在CS2中重新调整了分辨率等等,之后由于某种原因又调整了屏幕分辨率,导致后面一进入CS2登录界面,橙色登陆界面就会缩在左上角一小块,并且之后就会陷入黑屏 ...

  3. 百度网盘(百度云)SVIP超级会员共享账号每日更新(2023.12.26)

    一.百度网盘SVIP超级会员共享账号 可能很多人不懂这个共享账号是什么意思,小编在这里给大家做一下解答. 我们多知道百度网盘很大的用处就是类似U盘,不同的人把文件上传到百度网盘,别人可以直接下载,避免 ...

  4. [转帖]「开源摘星计划」Prometheus监控Harbor(二进制版)

    推荐 原创 键客李大白2022-08-08 11:35:07博主文章分类:Harbor进阶实战(企业实战)著作权 文章标签云原生运维Harbor文章分类kubernetes云计算私藏项目实操分享阅读数 ...

  5. [转帖]PostgreSQL 统计所有数据表各自的总行数

    一般来说,可以使用 count(*) 来获取具体某张表的总行数: SELECT count(0) FROM t_user; 如果想获得所有表的行数信息,可以使用以下 SQL 语句: SELECT re ...

  6. [转帖]badboy与jmeter的结合使用

    https://blog.csdn.net/weixin_41754309/article/details/107106855 欢迎关注[无量测试之道]公众号,回复[领取资源], Python编程学习 ...

  7. [转帖]坑:jmeter代理服务器录制脚本出现target controller is configured to "use recording Controller" but no such controller exists...

    配置好代理服务器后,运行代理服务器 run 报错: target controller is configured to "use recording Controller" bu ...

  8. [转帖]jmeter(八)断言

    https://www.cnblogs.com/pachongshangdexuebi/p/11582891.html jmeter中有个元件叫做断言(Assertion),它的作用和loadrunn ...

  9. CS5280H 无网络安装KVM虚拟机的过程

    背景 信创海光机器 想进行虚拟化 自带了银河麒麟V10 SP1的操作系统. 但是没有安装virt-manager等工具 会议室里面的网口又都坏了. 所以准备挑战一下无网络安装KVM. 过程1 第一步. ...

  10. 我们开源了一个轻量的 Web IDE UI 框架

    我们开源了一个轻量的 Web IDE UI 框架 Molecule 一个轻量的 Web IDE UI 框架 简介 Molecule 是一个受 VS Code 启发,使用 React.js 构建的 We ...