基于 Binlog + Flink 实现多表数据同构/异构方案

https://mp.weixin.qq.com/s/1h942YAcS6fhO5C43hGX-w

什么是数据异构？简单讲，就是将数据进行异地数据异构存储。

数据异构

服务市场使用 BinLake（京东 MySQL 的 Binlog 日志实时采集、统一分发、消息订阅和监控服务）进行数据异构，即通过订阅 MySQL 的 Binlog 日志，通过接收 JMQ 进行数据异地构建存储。

数据异构主要有两种方式，一种是顺序消费、另一种是并行消费。其中，在进行订单、订购的数据异构时是要求保证严格的顺序性的，因为并行消费是无法保证订单的先后顺序的，所以可能造成数据不一致。

但顺序消息的问题主要是单点消费效率慢的问题，以及消费出了问题就会造成阻塞，之前使用服务器进行消费，通过 ip 限制保证单点，后期切换到流式计算平台（strom/flink）进行处理，流式计算在并行写 es 和 jimdb 有天然的优势，但如果异常情况下出现写操作失败，对于 JMQ 的重试系统要做好幂等操作的处理。

订单数据同构

订单数据为顺序消费，一条订单数据，在插入 MySQL 时通过订阅 Binlog，通过 Flink 异构到 Elasticsearch 中。由于是单条记录，不涉及并发消费，可以订阅 Master MySQL。

订购数据异构

订购数据的数据异构有些不同，订购数据分为主表和扩展表，在 MySQL 中两张表的数据需要整合异构成一条记录存储到 Es 中。如果采用并行消费，则会出现 Flink 接收消息先后问题，简单说，就是有可能先接收到扩展表的 binlog 后接收到主表的 binlog。

所以改造的方案是，只订阅主表的 binlog，接收到消息后，通过反查 MySQL 的方式，进行数据整合，然后进行数据异构。考虑到对 MySQL 的压力，不能反查 Master MySQL，需要订阅 Slave MySQL。所以，这个方案的缺点是，不仅增加了 IO 的交互，而且数据异构的延迟较大。

商品数据异构

而商品数据异构是使用并发消费的，因为商品数据不需要保证严格的顺序，所以，商品数据异构的方式采用和订购数据同样的模式，由于商品数据需要缓存，所以，不仅要 Elasticsearch，还要写 redis，这样的架构设计使用 Flink 也很简单。

总结

Flink 被越来越多业务所使用，作为高性能的分布式流处理平台，不断的改进我们所使用的技术，以及不断突破我们原有的固化思维。其实，最早的设计方案是在系统里接收 Binlog 消息，然后处理，再异构存储写入 Elasticsearch。而采用 Flink，逐步理解流处理模式，我认为更在于思想理念上的改变。

基于 Binlog + Flink 实现多表数据同构/异构方案的更多相关文章

【转】MySQL分库分表数据迁移工具的设计与实现
一.背景 MySQL作为最流行的关系型数据库产品之一,当数据规模增大遭遇性能瓶颈时,最容易想到的解决方案就是分库分表.无论是进行水平拆分还是垂直拆分,第一步必然需要数据迁移与同步.由此可以衍生出一系列 ...
MySQL数据库备份还原（基于binlog的增量备份）
MySQL数据库备份还原(基于binlog的增量备份) 一.简介 1.增量备份增量备份是指在一次全备份或上一次增量备份后,以后每次的备份只需备份与前一次相比增加或者被修改的文件.这就意味 ...
基于binlog来分析mysql的行记录修改情况（python脚本分析）
最近写完mysql flashback,突然发现还有有这种使用场景:有些情况下,可能会统计在某个时间段内,MySQL修改了多少数据量?发生了多少事务?主要是哪些表格发生变动?变动的数量是怎 ...
MySQL基于binlog主从复制
MySQL复制介绍默认情况下复制是异步进行的,从库也不需要一直连接到主库来同步数据 MySQL复制的数据粒度可以是主实例上所有的数据库,也可以是指定的一个或多个数据库 ,也可以是一个数据库里的指定 ...
基于binlog恢复工具mysqlbinlog_flashback
基于binlog恢复工具mysqlbinlog_flashback简介 mysqlbinlog_back.py 是在线读取row格式的mysqld的binlog,然后生成反向的sql语句的工具.一般用 ...
（4.11）mysql备份还原——mysql闪回技术（基于binlog）
0.闪回技术与工具简介 mysql闪回工具比较流行三大类: [0.1]官方的mysqlbinlog:支持数据库在线/离线,用脚本处理binlog的输出,转化成对应SQL再执行.通用性不好,对正则.se ...
基于binlog的增量备份
1.1 增量备份简介增量备份是指在一次全备份或上一次增量备份后,以后每次的备份只需备份与前一次相比增加或者被修改的文件.这就意味着,第一次增量备份的对象是进行全备后所产生的增加和修改的文件:第二次增 ...
数据的异构实战（一）基于canal进行日志的订阅和转换
什么是数据的异构处理.简单说就是为了满足我们业务的扩展性,将数据从某种特定的格式转换到新的数据格式中来. 为什么会有这种需求出现呢? 传统的企业中,主要都是将数据存储在了关系型数据库中,例如说MySQ ...
Mysql 数据恢复流程基于binlog redolog undolog
注:文中有个易混淆的地方 sql事务,即每次数据库操作生成的事务,这个事务trx_id只在undolog里存储,同时undolog维护了此事务是否完成的状态. 日志持久化事务,为了保证redolog和 ...

随机推荐

springboot2.1.3+spring-session2.1.4分库处理
使用spring session框架来统一管理session,该框架支持jdbc.redis存储,使用非常简单,可以去官网查看文档一步步接入即可,官网文档如下:https://docs.spring. ...
数据库类型对应Java语言类型表
下表列出了基本 SQL Server.JDBC 和 Java 编程语言数据类型之间的默认映射: SQL Server 类型 JDBC 类型 (java.sql.Types) Java 语言类型 big ...
2013.6.28 - KDD最后一天
今天收到中秋的邮件.KDD结果出来了,Zhongqiu Wang & Jingwen Huang 15th/561.
linux 非root用户安装nginx
第一步:首先下载依赖包下载地址 pcre(www.pcre.org),zlib(www.zlib.org),openssl(www.openssl.org) 第二步:上传那个nginx的安装包下载 ...
nginx配置文件服务器 linux
一,安装nginx服务器点击打开链接二,配置nginx服务器 ##测试配置文件 sudo /usr/sbin/nginx -t ##修改配置文件 ##1. 在nginx文件 ...
Linux命令基础3-cd命令
cd 到带空格的文件夹 [root@cctg-sjc16-grafana ccatgbld]# cd 'my test' [root@cctg-sjc16-grafana my test]# cd . ...
Homebrew 更新慢问题
cd "$(brew --repo)" git remote set-url origin https://mirrors.tuna.tsinghua.edu.cn/git/hom ...
原生Form 和 Form组件 Modelform
主要的文件:manage.py,url.py,views.py,settings.py,models.py manage.py:项目管理文件,一般不做修改. url.py:路由系统,配置views.p ...
CSS3中的display:grid网格布局介绍
1.网格布局(grid): 它将网页划分成一个个网格,可以任意组合不同的网格,做出各种各样的布局; 2.基本概念: 容器和项目,如图所示: <div class="content&qu ...
am335x system upgrade kernel ec20 simcom7600ce(十一)
1 Scope of Document This document describes 4G hardware design, support quectel ec20 4G module/ ...

基于 Binlog + Flink 实现多表数据同构/异构方案

基于 Binlog + Flink 实现多表数据同构/异构方案的更多相关文章

随机推荐

热门专题