简述

CloudCanal 近期实现了 MySQL（RDS）到 ClickHouse 实时同步的能力，功能包含全量数据迁移、增量数据迁移、结构迁移能力，以及附带的监控、告警、HA等能力(平台自带)。

ClickHouse 本身并不直接支持 Update 和 Delete 能力，但是他自带的 MergeTree 系列表中 CollapsingMergeTree 和 VersionedCollapsingMergeTree 可变相实现实时增量的目的，并且性能完全够用,能够比较轻松达到 1k RPS 以上的能力。

接下来的文章，简要介绍 CloudCanal 是如何实现这个能力，以及作为用户我们怎么比较好的使用这个能力。

技术点

结构迁移

CloudCanal 默认提供结构迁移，默认选择 CollapsingMergeTree 作为表引擎，并增加一个默认字段 __cc_ck_sign，源主键作为 sortKey，如下示例:

 CREATE TABLE console.worker_stats

(

    `id` Int64,

    `gmt_create` DateTime,

    `worker_id` Int64,

    `cpu_stat` String,

    `mem_stat` String,

    `disk_stat` String,

    `__cc_ck_sign` Int8 DEFAULT 1

)

ENGINE = CollapsingMergeTree(__cc_ck_sign)

ORDER BY id

SETTINGS index_granularity = 8192

ClickHouse 表引擎中，CollapsingMergeTree 和 VersionedCollapsingMergeTree 都能通过标记位按规则折叠数据，从而达到更新和删除的效果。VersionedCollapsingMergeTree 相比 CollapsingMergeTree 优势在于同一条数据的不同变更可以乱序写入，但是 CloudCanal 选择 CollapsingMergeTree 主要原因在于2点

1. CloudCanal 中同一条记录必定是按源库变更顺序写入，不存在乱序情况
1. 不需要维护 VersionedCollapsingMergeTree 中的 Version 字段(版本，也可以起其他名字)

所以 CloudCanal 选择了 CollapsingMergeTree 作为默认表引擎。

写数据

CloudCanal 写数据主要包含全量和增量两种，即单次搬迁存量数据和长期同步，两者写入略有不同。全量写入对端主要工作是批量和多线程，因为 CloudCanal 结构迁移默认设置了标记位字段 __cc_ck_sign default 值为 1, 所以就不需要做特殊处理。

对于增量, CloudCanal 则需要做 3 件事情。

转换 Update、Delete 操作为 Insert

这一步有两件事情要做，第一件是按照操作类型，填充标记字段值，其中 Insert 和 Update 为 1 ，Delete 为 -1 ，第二件是将对应增量数据的前镜像或者后镜像填充到结果记录中，以便后续 insert 写入。

 for (CanalRowChange rowChange : rowChanges) {

            switch (rowChange.getEventType()) {

                case INSERT: {

                    for (CanalRowData rowData : rowChange.getRowDatasList()) {

                        rowData.getAfterColumnsList().add(nonDeleteCol);

                        records.add(rowData.getAfterColumnsList());

                    }

                    break;

                }

                case UPDATE: {

                    for (CanalRowData rowData : rowChange.getRowDatasList()) {

                        rowData.getBeforeColumnsList().add(deleteCol);

                        records.add(rowData.getBeforeColumnsList());

                        rowData.getAfterColumnsList().add(nonDeleteCol);

                        records.add(rowData.getAfterColumnsList());

                    }

                    break;

                }

                case DELETE: {

                    for (CanalRowData rowData : rowChange.getRowDatasList()) {

                        rowData.getBeforeColumnsList().add(deleteCol);

                        records.add(rowData.getBeforeColumnsList());

                    }

                    break;

                }

                default:

                    throw new CanalException("not supported event type,eventType:" + rowChange.getEventType());

            }

        }

按表归组

因为 IUD 操作已全部转换为 Insert, 且为全镜像(所有字段都填充了值),所以可以按表归组，然后批量写入。即使单线程也能满足大部分场景的同步性能要求。

protected Map<TableUnit, List<CanalRowChange>> groupByTable(IncrementMessage message) {

        Map<TableUnit, List<CanalRowChange>> data = new HashMap<>();

        for (ParsedEntry entry : message.getEntries()) {

            if (entry.getEntryType() == CanalEntryType.ROWDATA) {

                CanalRowChange rowChange = entry.getRowChange();

                if (!rowChange.isDdl()) {

                    List<CanalRowChange> changes = data.computeIfAbsent(new TableUnit(entry.getHeader().getSchemaName(), entry.getHeader().getTableName()), k -> new ArrayList<>());

                    changes.add(rowChange);

                }

            }

        }

        return data;

    }

并行写入

将按表归组的数据使用并行执行框架执行，具体不详述。

举个"栗子"

添加数据源
创建任务，选择数据源和库，并连接成功，点击下一步
选择数据同步，建议规格至少选择 1 GB.目前 MySQL->ClickHouse 结构迁移自动过滤，所以选择无效。点击下一步
选择表，默认 ClickHouse 上创建 CollapsingMergeTree 表引擎，并自动添加 __cc_ck_sign 折叠标记字段。点击下一步
选择字段，点击下一步
创建任务
等待任务自动结构迁移、全量迁移、数据同步追上
造点 Insert、Update、Delete 负载
延迟追平状态，停止负载
检查源端 MySQL 表数据，以其中一张表为例
检查对端 ClickHouse 表数据，不一致?!!
手动优化下表，数据一致。虽然可以等待 ClickHouse 自动优化，但是如果需要直接得到准确结果，可手动优化(注意:手动优化可能导致数据库机器压力过大)

常见问题

我在ClickHouse上已经创建了表怎么办？

目前比较建议直接使用 CloudCanal 自动结构迁移的方式来创建任务。

如果已建表为 CollapsingMergeTree 表引擎，请将标记位字段改成 __cc_ck_sign Int8 DEFAULT 1`，再创建任务(此时就不再自动结构迁移，而是使用已存在表)。

如果为其他表引擎，暂时不支持(主要是不支持增量能力，需要 CloudCanal 进一步探索)。

同步过去的数据什么时候合并？

当 CloudCanal 同步数据到 ClickHouse 时，ClickHouse 并不会实时合并数据，也没有一致性可言，所以一般情况是等待合并，或者直接手动合并(造成机器高负载、高IO)，如 optimize table worker_stats FINAL。

DDL 怎么做？

目前 CloudCanal 还未支持到 ClickHouse 的 DDL 同步，产品实现上，目前是忽略的。所以如果做 DDL ，加字段建议对端先加，再加源端，减字段反之。

总结

本文简要介绍了 CloudCanal 实现 MySQL（RDS）到 ClickHouse 数据迁移同步的能力，具备一站式、数据实时特点，从技术点、例子、以及常见问题角度展开。文章如有错误，烦请大家勘误，后续也欢迎大家试用，提供宝贵的意见和建议。

CloudCanal-免费好用的企业级数据同步工具，欢迎品鉴。

了解产品可以查看官方网站： http://www.clougence.com

CloudCanal社区：https://www.askcug.com/

MySQL到ClickHouse实时同步-CloudCanal实战的更多相关文章

实时同步sersync实战
目录实时同步sersync实战什么是实时同步 sersync和rsync+inotify对比 sersync项目实战安装rsync的服务端(backup) NFS服务端部署sersync 实时同 ...
logstash-input-jdbc实现mysql 与elasticsearch实时同步(ES与关系型数据库同步)
引言: elasticsearch 的出现使得我们的存储.检索数据更快捷.方便.但很多情况下,我们的需求是:现在的数据存储在mysql.oracle等关系型传统数据库中,如何尽量不改变原有数据库表结构 ...
几篇关于MySQL数据同步到Elasticsearch的文章---第五篇：logstash-input-jdbc实现mysql 与elasticsearch实时同步深入详解
文章转载自: https://blog.csdn.net/laoyang360/article/details/51747266 引言: elasticsearch 的出现使得我们的存储.检索数据更快 ...
生产环境实践：Cana实现MySQL到ES实时同步
注:由于文章篇幅有限,完整文档可扫下面二维码免费获取,更有深受好评的大数据实战精英+架构师好课等着你. 速点链接加入高手战队:http://www.dajiangtai.com/course/112. ...
mysql 与elasticsearch实时同步常用插件及优缺点对比(ES与关系型数据库同步)
前言: 目前mysql与elasticsearch常用的同步机制大多是基于插件实现的,常用的插件包括:elasticsearch-jdbc, elasticsearch-river-MySQL , g ...
将linux上的网站代码托管到gogs git服务器上进行实时同步（实战）
一.说明本说明只针对php,其他语言需要编译请用别的架构实现二.实现效果本地开发员门提交推送代码到git服务器,会立即同步更新网站服务器上代码三.实战步骤小节首次托管请先看 https: ...
Mysql 到 Hbase 数据如何实时同步，强大的 Streamsets 告诉你
很多情况大数据集群需要获取业务数据,用于分析.通常有两种方式: 业务直接或间接写入的方式业务的关系型数据库同步到大数据集群的方式第一种可以是在业务中编写代码,将觉得需要发送的数据发送到消息队列,最 ...
mysql数据实时同步到Elasticsearch
业务需要把mysql的数据实时同步到ES,实现低延迟的检索到ES中的数据或者进行其它数据分析处理.本文给出以同步mysql binlog的方式实时同步数据到ES的思路, 实践并验证该方式的可行性,以供 ...
rsync nfs 实时同步，结合实战
目录 rsync nfs 实时同步,实战一.部署rsync服务端(backup) 二.部署rsync客户端(nfs,web01) 三.部署web代码(web01) 四.NFS服务端部署(nfs) 五 ...

随机推荐

CVE-2020-1350 详解与复现
# 漏洞简介在Windows上,DNS服务器是域控制器,其管理员是Domain Admins组的一部分.默认情况下,Domain Admins组是已加入域的所有计算机上Administrators组 ...
ASP.NET Core文件压缩最佳实践
前言在微软官方文档中,未明确指出文件压缩功能的使用误区. 本文将对 ASP.NET Core 文件响应压缩的常见使用误区做出说明. 误区1:未使用 Brotil 压缩几乎不需要任何额外的代价,Br ...
【CentOS_7】一行shell实现自动清理过期日志
昨日web测试环境登录白屏,慌忙登上机器查看,半天没找到问题. 不知哪根筋不对,df -h 一看 , /dev/sda1 已经100%. 立马 du -sh *,发现log日志有点大. 手工清理后,业 ...
二、Python流程控制练习题
一.分支结构-if等练习题: 练习1:英制单位与公制单位互换练习2:掷骰子决定做什么练习3:百分制成绩转等级制练习4:输入三条边长如果能构成三角形就计算周长和面积练习5:个人所得税计算器练 ...
008.Ansible文件管理模块
一 stat模块检查文件状态使用,模块获取文件的状态等信息,类似与linux中的STAT命令可以用来获取文件的属主.可读/写.文件状态等信息 [root@node1 ansible]# stat ...
012.Python的字典和集合的相关函数
一字典的相关函数 1.1 增函数 dictvar = {"a":1,"b":2} dictvar["c"] = 3 print(dictv ...
DDD中限界上下文与通用语言的作用
什么是通用语言通用语言, 最主要的目的就是减少交流中信息丢失, 在实际开发中, 可能关联很多人, 例如有业务层面的业务细节制定者.领域专家.产品经理.项目经理 .架构师.开发经理.测试经理等等, 即 ...
Step By Step(Lua环境)
Step By Step(Lua环境) Lua将其所有的全局变量保存在一个常规的table中,这个table被称为"环境".它被保存在全局变量_G中. 1. 全局变量声明: ...
Python+Selenium学习笔记7 - os模块
os模块是关于文件/目录方面的导入语法 import os 相关方法 path.abspath() 用来获取当前路径下的文件 os.path.abspath('checkbox.html') ...
Covid经济型自主汽车
Covid经济型自主汽车 Autonomous Vehicles in Covid Economy Covid经济已经对汽车行业产生了负面影响,更多的变化正在进行中,同时也带来了大量的不确定性.我们可 ...

MySQL到ClickHouse实时同步-CloudCanal实战

简述

技术点