摘要:在企业客户里, SQL Server 在传统的制造业依然散发着持久的生命力,SQL Server 的 CDC 复杂度相比 Oracle 较低, 因此标准的官方派做法就是直接使用这个 CDC 接口进行同步,但江湖上也有通过裸解析 ldf 文件来直接读取数据库变更,本文将就这两大门派展开探讨。

 

前言

上次发的关于Oracle CDC 的文章反响不错, 而像这种类型的数据库还有好几个, 这里把三大闭源数据库先讲一遍: Oracle, SQL Server 和 DB2。
 
在企业客户里, SQL Server 的使用范围远远超过我之前的预期, 这个在互联网用户那边几乎见不到的数据库, 在传统的制造业, 企业客户里依然散发着持久的生命力, 在 DB Engine 的排名里, SQL Server 仅次于 Oracle 与 Mysql, 排在第三, 是TAPDATA 在客户场景落地的时候经常碰见的数据库之一。
 

两大门派

SQL Server 的 CDC 复杂度相比 Oracle 较低, 且官方从 08 版本就天然支持这个功能, 只是在 16 版本之前, 这个设置只有在企业版才有, 在 16 版本之后, 在社区版也可以开启功能, 因此标准的官方派做法就是直接使用这个 CDC 接口进行同步。
 
在开启 CDC 功能之后, SQL Server 会将变更的内容同步到一张表中, 有主键, 业务方通过轮询这张带主键的表拿到新的事务变更。
 
这是最好实现的方案之一, 问题有好几个:
  1. 08 版本之前不支持。
  2. 16 版本之前只支持企业版。
  3. 依靠轮询, 实时性较差, 且 CDC 表本身也存在延迟, 正常情况下的延迟往往超过秒级。
  4. 如果忘记从表中取走数据, 这张表会无限膨胀。
  5. 被取走的数据会被清理, 无法回放日志。
  6. 配置复杂, 需要考虑 ALWAYSON 的情况下, 可用节点切换的 CDC 作业恢复的触发等配置。
 
SQL Server 在进行事务操作时, 会将操作记录在以 ldf 结尾的文件中, 因此江湖中各路草莽瞄准了这一点, 也开发了属于自己的数据追踪套路。
 
有很多做操作审计, 或者数据同步的厂商开始尝试绕过 CDC, 通过裸解析 ldf 文件来直接读取数据库变更, 具有的优势是:
  1. 负载与数据库分开, 性能可单独优化, 速度很快, 瓶颈在 IO 上。
  2. 可屏蔽各种部署结构带来的差异, ldf 文件是永恒的。
  3. 事件触发, 相比轮询 CDC 表, 消息延迟很低, 可以在几十毫秒内。
 
劣势是增加了部署复杂度, 需要在数据库机器上部署一个单独的 Agent 用来做日志的采集, 且需要自行考虑高可用切换时 Agent 传输日志的问题。
 
相比 Oracle 多样的版本, 和完全无法捉摸的二进制格式, SQL Server 的解析较为简单, 业界实现的各种商业产品也非常多, 不过目前没有看到在 Linux 下可用的版本, 也没有看到开源的实现出现。
 

TAPDATA 的解法

在默认情况下, TAPDATA 使用了轮询 CDC 增量表的方式进行数据获取, 这种方式对用户使用比较友好, 不需要额外部署服务, 同时, 支持 ALWAYSON 的自动切换, CDC 任务的自动恢复等高可用特性, 方便易上手。
 
在数据量非常大, CDC Table 性能不足, 或者客户对 CDC 延时有极高要求时, TAPDATA 可以通过 Agent 传输 + 裸日志文件解析的形式, 在获得数倍于传统方式性能的同时, 有效降低了延迟
 

一个小问题

Oracle 日志解析因为比较困难, 开源项目比较少, SQL Server 相对来说内容少很多, 而且 Google 一下有大量的商业软件在基于裸日志解析做一些审计, 观察, 同步的事情, 为什么依然看不到像样的开源项目呢?
 
进一步了解Tapdata 实时数据服务平台,更多技术文章可前往 Tapdata 技术博客。Tapdata 自研的异构数据库实时同步工具—— Tapdata Cloud ,现已免费开放给技术开发者使用,目前支持 Oracle、MySQL、PostgreSQL、SQL Server、MongoDB、Elasticsearch 、达梦、Kafka等主流库之间的数据迁移和同步,即将支持 DB2、Sybase ASE、Redis、GBase、GaussDB 等。
 
本文作者:Tapdata 技术合伙人肖贝贝,源文地址

实时数据引擎系列(五): 关于 SQL Server 与 SQL Server CDC的更多相关文章

  1. Tapdata 肖贝贝:实时数据引擎系列(四)-关于 Oracle 与 Oracle CDC

      摘要:想实现 Oracle 的 CDC,排除掉一些通用的比如全量比对, 标记字段获取之外, 真正的增量形式获取变更, 有三种办法: Logminer .XStream .裸日志解析,但不管哪种方法 ...

  2. Tapdata肖贝贝:实时数据引擎系列(三) - 流处理引擎对比

      摘要:本文将选取市面上一些流计算框架包括 Flink .Spark .Hazelcast,从场景需求出发,在核心功能.资源与性能.用户体验.框架完整性.维护性等方面展开分析和测评,剖析实时数据框架 ...

  3. Tapdata 肖贝贝:实时数据引擎系列(六)-从 PostgreSQL 实时数据集成看增量数据缓存层的必要性

      摘要:对于 PostgreSQL 的实时数据采集, 业界经常遇到了包括:对源库性能/存储影响较大, 采集性能受限, 时间回退重新同步不支持, 数据类型较复杂等等问题.Tapdata 在解决 Pos ...

  4. 基于 WebSocket 实现 WebGL 3D 拓扑图实时数据通讯同步(二)

    我们上一篇<基于 WebSocket 实现 WebGL 3D 拓扑图实时数据通讯同步(一)>主要讲解了如何搭建一个实时数据通讯服务器,客户端与服务端是如何通讯的,相信通过上一篇的讲解,再配 ...

  5. 通过 WebSocket 实现 WebGL 3D 拓扑图实时数据通讯同步(二)

    我们上一篇<基于 WebSocket 实现 WebGL 3D 拓扑图实时数据通讯同步(一)>主要讲解了如何搭建一个实时数据通讯服务器,客户端与服务端是如何通讯的,相信通过上一篇的讲解,再配 ...

  6. SQL Server 2008空间数据应用系列五:数据表中使用空间数据类型

    原文:SQL Server 2008空间数据应用系列五:数据表中使用空间数据类型 友情提示,您阅读本篇博文的先决条件如下: 1.本文示例基于Microsoft SQL Server 2008 R2调测 ...

  7. SQLSERVER 免费对比数据库结构和数据的工具支持:SQL Server 2012, SQL Server 2008 and SQL Server 2005

    New xSQL Schema Compare - version 5 Compare the schemas of two SQL Server databases, review differen ...

  8. Tapdata 实时数据融合平台解决方案(五):落地

    作者介绍:TJ,唐建法,Tapdata 钛铂数据 CTO,MongoDB中文社区主席,原MongoDB大中华区首席架构师,极客时间MongoDB视频课程讲师. 通过前面几篇文章,我们从企业数据整合与分 ...

  9. 一文让你彻底了解大数据实时计算引擎 Flink

    前言 在上一篇文章 你公司到底需不需要引入实时计算引擎? 中我讲解了日常中常见的实时需求,然后分析了这些需求的实现方式,接着对比了实时计算和离线计算.随着这些年大数据的飞速发展,也出现了不少计算的框架 ...

随机推荐

  1. 关于C++类定义中不能声明该类对象,而Java中可以的原因

    相信接触过C++的人,在学习Java的过程当中,会遇到这样一个问题:在Java中常常会在类定义中声明一个该类的对象(例如Person类定义中声明一些叫parents之类的Person对象),但是在C+ ...

  2. vue3 数据可视化项目

    可视化面板介绍 ​ 应对现在数据可视化的趋势,越来越多企业需要在很多场景(营销数据,生产数据,用户数据)下使用,可视化图表来展示体现数据,让数据更加直观,数据特点更加突出. 01-使用技术 完成该项目 ...

  3. 『现学现忘』Git对象 — 15、blob对象介绍

    目录 (一)Git对象的存放目录 (二)Git中对象类型 (三)blob对象 1.blob对象说明 (1)blob对象定义 (2)blob对象说明 (3)blob对象存储的方式 (4)查看blob对象 ...

  4. C++基础-4-封装(构造函数与析构函数,深拷贝与浅拷贝,静态成员,this,友元,const修饰成员函数)

    4. 封装 4.1.1 封装的意义 1 #include<iostream> 2 #include<string> 3 using namespace std; 4 5 con ...

  5. S3C2410——LED灯实验

    一.S3C2410输入/输出的原理 Linux主要有字符设备.块设备和网络设备3类驱动程序,我们一般编写的驱动都是字符设备驱动程序. 二.程序部分 编写程序控制3个LED灯,代码分为2个部分:控制LE ...

  6. 手脱PESpin壳【06.exe】

    1.查壳 2.LoradPE工具检查 一方面可以用LoradPE工具查看重定位,另一方面也可获取一些详细信息 3.查找OEP ①未发现pushad 开始未发现pushad,进行单步步入,很快就能找到p ...

  7. Solon 1.7.6 发布,更现代感的应用开发框架

    相对于 Spring Boot 和 Spring Cloud 的项目 启动快 5 - 10 倍 qps 高 2- 3 倍 运行时内存节省 1/3 ~ 1/2 打包可以缩小到 1/2 ~ 1/10(比如 ...

  8. nginx1.1 nginx介绍和反向代理

    1.什么是nginx nginx是一个高性能的http和反向代理的web服务器,所占内存小,高并发 nginx默认端口:80端口 命令存放目录:cd /usr/local/nginx/sbin 配置文 ...

  9. MPLS L3 跨域 optionB 配置

    mpls跨域optionB optionB的核心思想是私网路由传递过程是 PE-ASBR1-ASBR2-PE2 在传递过程中私网标签发生了变化(由ASBR重新分配了私网标签),而在数据平面(不考虑PH ...

  10. 好客租房41-react组件基础综合案例-渲染列表数据

    1渲染列表 在state定义数据 进行数据渲染 //导入react import React from 'react' import ReactDOM from 'react-dom' //导入组件 ...