本文分享自华为云社区《【GaussTech技术专栏】GaussDB逻辑解码技术原理》，作者：GaussDB 数据库。

1.背景

随着国内各大行业数字化改造步伐的加快，异构数据库数据同步的需求场景越来越多。

异构数据库同步，即将不同类型、不同结构的数据库之间的数据进行同步处理，以确保数据在不同数据库之间的一致性。比如，将当前数据库的数据迁移到其他类型的数据库中，或者将当前数据库中的数据实时备份到另一个数据库，从而提升数据的安全性和可靠性。

华为云提供了DRS服务，该服务涵盖了异构数据库之间的迁移、同步、灾备、订阅、录制回放等功能。目前DRS支持超过20种关系型和非关系型数据库作为源端，其中就包括了GaussDB。以GaussDB作为源数据库的DRS数据同步的原理如下图所示。

DRS驱动源端数据库GaussDB实时解析WAL日志，生成逻辑日志，随后DRS服务接收并解析逻辑日志，将其转换为目标数据库的SQL语句，并驱动目标数据库执行SQL语句，该过程被称为逻辑复制。

对于源端数据库来说，核心要解决的问题是如何将WAL日志转换成逻辑日志，该过程叫逻辑解码。本文我们为大家介绍GaussDB逻辑解码的技术原理。

2. GaussDB逻辑解码

WAL日志包含数据库中发生的所有数据变更，包括插入、更新和删除等操作，同时还包含了诸多数据库内部细节和特有实现。

逻辑解码用于将WAL日志解析为易于理解和处理的逻辑日志格式，包括JSON、二进制或者固定的text格式。用户和逻辑复制工具（如DRS）可以根据自身需求来解析和处理这些逻辑日志。

当启用逻辑解码时，GaussDB除了将每个事务的基本操作写入WAL日志，还会将少量的解码辅助信息（例如csn快照，用于解码阶段的可见性判断）记录到WAL日志中，以支持逻辑解码过程。同时还需要创建一个逻辑复制槽。逻辑复制槽的作用是阻止数据库将已落盘的WAL日志删除，并防止解码所需的系统表记录被清理。

如上图所示，逻辑解码主要包括数据来源、读取/加载、解码、重排/发送几个模块。WAL日志和系统表中存储的表的元数据是逻辑解码的内容来源。逻辑解码从WAL日志捕获用户表DML的变更记录，依据其中的物理存储标识（block number和offset等）和提交序列号（csn），加载系统表对应时刻的表的元数据，再将物理变更记录中强耦合的内部信息转换为用户可理解的表内容，生成和数据库实现无关的逻辑变更记录，最后重排和发送逻辑变更记录。

GaussDB逻辑解码有两种方式，分别为串行解码和并行解码。串行解码流程分为读取、解码、发送三个步骤，整个串行解码流程均在同一个线程内完成，其中解码的耗时占据全流程的70%以上。串行解码性能约3-5M/s。而并行解码是通过多线程并行执行的方式，极大压缩了解码过程耗时。因为串行解码效率较低，我们不推荐使用串行解码，而是推荐效率更高的并行解码，而且当前通过华为云DRS服务启动的GaussDB逻辑解码任务均为并行解码，下面我们重点介绍并行解码。

3. 并行解码

并行解码是通过多线程并发执行来提升逻辑解码性能。

如上图所示，并行逻辑解码包含三类线程：

Reader线程

读取WAL日志，抽取业务DML操作以及解码辅助信息对应的record，构建LogicalLogChange内存对象，如果该条DML涉及toast数据，还需要将toast数据拼接到该dml操作的LogicalLogChange对象中，然后按照日志序列号（LSN，WAL日志的唯一标识符，是一个有序值）顺序轮流分发到解码输入队列。

如果解码到了DDL，DDL更新了系统表，Reader线程此时会失效localsyscache，并将失效消息加入Decoder线程输入队列中，广播通知Decoder线程失效本地缓存。后续decoder线程在解码到失效消息时，同样对线程内的localsyscache作失效处理。

Decoder线程

从解码输入队列获取LogicalLogChange对象，根据日志版本内容加载数据表的元信息，将日志中的物理数据转换成表名、列名、列数据等用户易理解的逻辑数据，解码后的内容存放在LogicalLog内存对象中，并将LogicalLog对象加入到解码输出队列。

前面介绍到，Reader线程在将LogicalLogChange对象入队时是按LSN序将其放入解码输入队列，decoder解码完成后也会将LogicalLog按LSN需放入解码输出队列，供后面的Sender线程读取。

Sender线程

按照DML日志生成顺序，从解码输出队列拿取LogicalLog对象，根据每个对象的事务ID构建hash桶，按照每个LogicalLog对象在解码输出队列中的顺序（队列中已按LSN序排序），把同一个事务的LogicalLog对象，归类到对应的hash桶中，再以事务的提交顺序把每个事务的所有LogicalLog对象发送给逻辑日志接收端（例如DRS）。

并行解码可按需配置解码并发度，并发度参数取值范围为1-20，最大可配置20个并发解码线程。

GaussDB并行解码能极大地提升解码性能。典型tpcc场景下，解码速率可达到100MB/s。

4. DDL解码

GaussDB逻辑解码支持DDL解码。如果GaussDB开启了逻辑解码，则会在DDL SQL执行阶段对DDL语句的解析树进行解析，解析的结果组装为Json格式的字符串（示例），并新增一种WAL日志类型，用于将该Json字符串写入WAL日志。逻辑解码线程解析到该WAL日志类型时，按照原Json格式输出DDL的解码逻辑日志。DDL语句alter table t1 add column col3 varchar(64)的Json格式解码结果如下图所示。

5. 多版本数据字典与指定位点解码

逻辑解码在解码DML过程中依赖表的元数据信息，因此需要访问系统表（也叫数据字典），这种解码模式也叫online catalog模式。GaussDB将系统表信息缓存在syscache中，当DDL语句更新了系统表时，需要对syscache进行失效处理。执行DDL时会往WAL中写一条失效消息日志，逻辑解码的每个线程都在本线程内保存了一份syscache的副本，即localcache，解码到失效消息日志时，会对localcache做相应的失效处理。

online catalog模式的逻辑解码依赖表的历史元数据信息，因此需要利用逻辑复制槽来保留系统表的旧版本元组。如果想对任意历史日志进行指定位点解码，逻辑解码依赖的系统表旧版本元组需要需要一直保留，这样会严重影响数据库的性能。

因此，GaussDB单独增加了一套逻辑解码专用的系统表，叫做逻辑解码多版本数据字典。逻辑解码多版本数据字典参考内核系统表，表结构与内核系统表结构基本保持一致，保留了解码过程中表的元数据的所有历史版本，并单独实现了清理机制。

新安装的实例会自动创建好逻辑解码多版本数据字典，非新安装的实例，首次初始化逻辑解码多版本数据字典时，需要调用一个系统函数进行初始化，该系统函数将内核系统表的数据同步到逻辑解码多版本数据字典中。当DDL语句执行完，事务提交前，往内核系统表插入元数据的同时往逻辑解码多版本数据字典插入元数据。解码的时候，解码线程根据当前csn快照，从逻辑解码多版本数据字典中将元数据信息读取到localcache缓存中使用。同时逻辑解码实现了多版本数据字典清理的定时任务，通过guc参数，配置保留时间，将超过保留时间的元组删除。而且，通过该guc参数，我们可以保留任意时间的旧元组，从而在不影响数据库性能的基础上实现从指定位点（即WAL的物理位置）进行逻辑解码，位点可以是包括归档WAL日志在内的任意位置。

通过这种单独增加一套逻辑解码多版本数据字典的方式，可以将逻辑解码与内核系统表解耦，内核系统表无需为逻辑解码保留大量的旧版本元组，保障了内核的运行性能。

6. 分布式CN解码

GaussDB支持分布式解码能力。分布式解码又分为直连DN解码与CN解码。直连DN解码即不通过CN，解码工具直接连接到DN节点上进行DN解码，该解码方式和集中式解码原理一致，只能解本DN分片的数据。分布式解码主要是指连CN进行解码，可以完整解码整个集群的增量数据。

事务提交顺序（CommitCSN）代表事务完成的先后顺序。对于有依赖的两个事务，后执行事务的CommitCSN大于先执行事务的CommitCSN。分布式逻辑解码按照事务提交顺序有序返回事务的逻辑日志。

如图所示，DN各自按照事务提交顺序返回局部事务的逻辑日志，CN通过堆排序协调汇总来自各DN的事务逻辑日志，按堆排序的顺序输出逻辑日志。

相比于直连DN解码，具有链路数少、能保证强一致性、易用性强等优点。

7. 总结

GaussDB内核提供的逻辑解码技术，配合DRS服务，可以实现异构数据库之间的逻辑复制。GaussDB逻辑解码不仅支持DML解码，还支持DDL解码，极大提高了逻辑复制的易用性。支持独立的多版本数据字典模式进行解码，并支持指定位点解码与数据找回。通过开启并行解码，可以极大提高WAL日志解码速率，保证数据同步的高性能。

华为开发者空间，汇聚鸿蒙、昇腾、鲲鹏、GaussDB、欧拉等各项根技术的开发资源及工具，致力于为每位开发者提供一台云主机、一套开发工具及云上存储空间，让开发者基于华为根生态创新。

点击链接，免费领取您的专属云主机~

深度解读GaussDB逻辑解码技术原理的更多相关文章

如何用区块链技术解决信任问题？Fabric 架构深度解读
阿里妹导读:区块链技术,随着比特币的兴起而为大家所知.但是具体到技术本身,大家相对熟悉的几个词可能是“数据不可篡改”.“公开链”.“分布式数据”.“共识机制”等. 这篇文章将抛砖引玉,通过深度解读Hy ...
深度解读 AlphaGo 算法原理
http://blog.csdn.net/songrotek/article/details/51065143 http://blog.csdn.net/dinosoft/article/detail ...
我就是认真：Linux SWAP 深度解读（必须收藏）
我就是认真:Linux SWAP 深度解读(必须收藏) http://mp.weixin.qq.com/s?__biz=MzA4Nzg5Nzc5OA==&mid=2651660097& ...
Atitit 语音识别的技术原理
Atitit 语音识别的技术原理 1.1. 语音识别技术,也被称为自动语音识别Automatic Speech Recognition,(ASR),2 1.2. 模型目前,主流的大词汇量语音识别系统多 ...
液晶常用接口“LVDS、TTL、RSDS、TMDS”技术原理介绍
液晶常用接口“LVDS.TTL.RSDS.TMDS”技术原理介绍 1:Lvds Low-Voltage Differential Signaling 低压差分信号 1994年由美国国家半导体公司提出之 ...
深度学习的异构加速技术（一）：AI 需要一个多大的“心脏”？
欢迎大家前往腾讯云社区,获取更多腾讯海量技术实践干货哦~ 作者:kevinxiaoyu,高级研究员,隶属腾讯TEG-架构平台部,主要研究方向为深度学习异构计算与硬件加速.FPGA云.高速视觉感知等方向 ...
AI 新技术革命将如何重塑就业和全球化格局？深度解读 UN 报告（上篇）
欢迎大家前往腾讯云社区,获取更多腾讯海量技术实践干货哦~ 张钦坤腾讯研究院秘书长蔡雄山腾讯研究院法律研究中心副主任祝林华腾讯研究院法律研究中心助理研究员曹建峰腾讯研究院法律研究中心高级研究员 ...
SSH深度历险（十） AOP原理及相关概念学习+AspectJ注解方式配置spring AOP
AOP(Aspect Oriented Programming),是面向切面编程的技术.AOP基于IoC基础,是对OOP的有益补充. AOP之所以能得到广泛应用,主要是因为它将应用系统拆分分了2个部分 ...
快速理解高性能HTTP服务端的负载均衡技术原理(转)
1.前言在一个典型的高并发.大用户量的Web互联网系统的架构设计中,对HTTP集群的负载均衡设计是作为高性能系统优化环节中必不可少的方案.HTTP负载均衡的本质上是将Web用户流量进行均衡减压,因此 ...
SQL Server 2019 深度解读：微软数据平台的野望
本文为笔者在InfoQ首发的原创文章,主要利用周末时间陆续写成,也算近期用心之作.现转载回自己的公众号,请大家多多指教. 11 月 4 日,微软正式发布了其新一代数据库产品 SQL Server 20 ...

随机推荐

7月新特性 | 软件开发生产线CodeArts发布多项新特性等你体验！
华为云软件开发生产线CodeArts是一站式.全流程.安全可信的云原生DevSecOps平台,覆盖需求.开发.测试.部署.运维等软件交付全生命周期环节,为开发者打造全云化研发体验.2024年7月,Co ...
如何在 Recovery 中启用应用
如果因为禁用了某个应用手机无法开机,那么你需要这个方法来救命 https://xdaforums.com/t/enable-or-disable-apps-directly-from-the-file ...
Maven经验分享（五）Maven拷贝资源
上一章介绍使用ant拷贝资源,这里介绍maven拷贝资源,使用maven-resources-plugin插件. <plugin> <groupId>org.apache.ma ...
programmers model
Handler模式一直使用MSP,所以在handler模式下处理器会忽略SPSEL位:异常进入及返回机制会更新CONTROL寄存器. 在操作系统的环境中,推荐线程在Thread模式下运行使用PSP,内 ...
Prometheus部署以及问题解决
Prometheus作用: Prometheus监控(Prometheus Monitoring)是一种开源的系统监控和警报工具.它最初由SoundCloud开发并于2012年发布,并在2016年加入 ...
Win32 状态栏用法
WIN32 状态控件用法 1.创建控件状态栏类名: STATUSCLASSNAME #define STATUSCLASSNAMEW L"msctls_statusbar32 ...
浅谈Integer缓存机制原理
面试题引入这里引申出一个经典问题,看下面代码 Integer a = 100; Integer b = 100; System.out.println(a == b);//true Integer ...
Go plan9 汇编：说透函数栈
原创文章,欢迎转载,转载请注明出处,谢谢. 0. 前言函数是 Go 的一级公民,本文从汇编角度出发看看我们常用的一些函数在干什么. 1. 函数 1.1 main 函数在 main 函数中计算两数之 ...
Dell R920 服务器iDrac口默认账号密码和IP
Dell服务器iDrac口默认账号密码和IP 账号:root 密码:calvin IP:192.168.0.120/24
ASP.NET Core – CORS (Cross-Origin Resource Sharing)
参考 Docs – Enable Cross-Origin Requests (CORS) in ASP.NET Core 介绍 CORS (Cross-Origin Resource Sharing ...

深度解读GaussDB逻辑解码技术原理