基于 Binlog + Flink 实现多表数据同构/异构方案

https://mp.weixin.qq.com/s/1h942YAcS6fhO5C43hGX-w

什么是数据异构？简单讲，就是将数据进行异地数据异构存储。

数据异构

服务市场使用 BinLake（京东 MySQL 的 Binlog 日志实时采集、统一分发、消息订阅和监控服务）进行数据异构，即通过订阅 MySQL 的 Binlog 日志，通过接收 JMQ 进行数据异地构建存储。

数据异构主要有两种方式，一种是顺序消费、另一种是并行消费。其中，在进行订单、订购的数据异构时是要求保证严格的顺序性的，因为并行消费是无法保证订单的先后顺序的，所以可能造成数据不一致。

但顺序消息的问题主要是单点消费效率慢的问题，以及消费出了问题就会造成阻塞，之前使用服务器进行消费，通过 ip 限制保证单点，后期切换到流式计算平台（strom/flink）进行处理，流式计算在并行写 es 和 jimdb 有天然的优势，但如果异常情况下出现写操作失败，对于 JMQ 的重试系统要做好幂等操作的处理。

订单数据同构

订单数据为顺序消费，一条订单数据，在插入 MySQL 时通过订阅 Binlog，通过 Flink 异构到 Elasticsearch 中。由于是单条记录，不涉及并发消费，可以订阅 Master MySQL。

订购数据异构

订购数据的数据异构有些不同，订购数据分为主表和扩展表，在 MySQL 中两张表的数据需要整合异构成一条记录存储到 Es 中。如果采用并行消费，则会出现 Flink 接收消息先后问题，简单说，就是有可能先接收到扩展表的 binlog 后接收到主表的 binlog。

所以改造的方案是，只订阅主表的 binlog，接收到消息后，通过反查 MySQL 的方式，进行数据整合，然后进行数据异构。考虑到对 MySQL 的压力，不能反查 Master MySQL，需要订阅 Slave MySQL。所以，这个方案的缺点是，不仅增加了 IO 的交互，而且数据异构的延迟较大。

商品数据异构

而商品数据异构是使用并发消费的，因为商品数据不需要保证严格的顺序，所以，商品数据异构的方式采用和订购数据同样的模式，由于商品数据需要缓存，所以，不仅要 Elasticsearch，还要写 redis，这样的架构设计使用 Flink 也很简单。

总结

Flink 被越来越多业务所使用，作为高性能的分布式流处理平台，不断的改进我们所使用的技术，以及不断突破我们原有的固化思维。其实，最早的设计方案是在系统里接收 Binlog 消息，然后处理，再异构存储写入 Elasticsearch。而采用 Flink，逐步理解流处理模式，我认为更在于思想理念上的改变。

基于 Binlog + Flink 实现多表数据同构/异构方案的更多相关文章

【转】MySQL分库分表数据迁移工具的设计与实现
一.背景 MySQL作为最流行的关系型数据库产品之一,当数据规模增大遭遇性能瓶颈时,最容易想到的解决方案就是分库分表.无论是进行水平拆分还是垂直拆分,第一步必然需要数据迁移与同步.由此可以衍生出一系列 ...
MySQL数据库备份还原（基于binlog的增量备份）
MySQL数据库备份还原(基于binlog的增量备份) 一.简介 1.增量备份增量备份是指在一次全备份或上一次增量备份后,以后每次的备份只需备份与前一次相比增加或者被修改的文件.这就意味 ...
基于binlog来分析mysql的行记录修改情况（python脚本分析）
最近写完mysql flashback,突然发现还有有这种使用场景:有些情况下,可能会统计在某个时间段内,MySQL修改了多少数据量?发生了多少事务?主要是哪些表格发生变动?变动的数量是怎 ...
MySQL基于binlog主从复制
MySQL复制介绍默认情况下复制是异步进行的,从库也不需要一直连接到主库来同步数据 MySQL复制的数据粒度可以是主实例上所有的数据库,也可以是指定的一个或多个数据库 ,也可以是一个数据库里的指定 ...
基于binlog恢复工具mysqlbinlog_flashback
基于binlog恢复工具mysqlbinlog_flashback简介 mysqlbinlog_back.py 是在线读取row格式的mysqld的binlog,然后生成反向的sql语句的工具.一般用 ...
（4.11）mysql备份还原——mysql闪回技术（基于binlog）
0.闪回技术与工具简介 mysql闪回工具比较流行三大类: [0.1]官方的mysqlbinlog:支持数据库在线/离线,用脚本处理binlog的输出,转化成对应SQL再执行.通用性不好,对正则.se ...
基于binlog的增量备份
1.1 增量备份简介增量备份是指在一次全备份或上一次增量备份后,以后每次的备份只需备份与前一次相比增加或者被修改的文件.这就意味着,第一次增量备份的对象是进行全备后所产生的增加和修改的文件:第二次增 ...
数据的异构实战（一）基于canal进行日志的订阅和转换
什么是数据的异构处理.简单说就是为了满足我们业务的扩展性,将数据从某种特定的格式转换到新的数据格式中来. 为什么会有这种需求出现呢? 传统的企业中,主要都是将数据存储在了关系型数据库中,例如说MySQ ...
Mysql 数据恢复流程基于binlog redolog undolog
注:文中有个易混淆的地方 sql事务,即每次数据库操作生成的事务,这个事务trx_id只在undolog里存储,同时undolog维护了此事务是否完成的状态. 日志持久化事务,为了保证redolog和 ...

随机推荐

obj + mtl 格式说明
OBJ(或 .OBJ)是一种开放的几何定义文件格式,最初由Wavefront Technologies公司开发,用以描述其Advanced Visualizer动画包.该格式已被其他3D图形应用供应商 ...
mysql学习之基础篇03
我们今天来进行建表的基本操作: 首先要建表就要了解列类型,因为建表就是声明列的过程,列声明完成了,表也就建好了. mysql中列分为三大类: 一.数值型数值型又分为整型和浮点型两种. 先来看整型: ...
simpleDateFormat中格式化时间需要注意的问题
student.getDateProperty("business","birth","yyyy-MM-dd",null)测试时时间格式 ...
使用vue打包，vendor文件过大，或者是app.js文件很大
我的解决办法: 1.把不常改变的库放到index.html中,通过cdn引入,比如下面这样: 然后找到build/webpack.base.conf.js文件,在 module.exports = { ...
Union-Find(并查集): Dynamic Connectivity 问题
设计算法一般所使用的方法过程什么是Dynamic connectivity 我们的problem就是支持这两种操作: Union与connected query Example 问题是两个objec ...
什么是C/S和B/S架构？
C/S架构 C/S即:Client与Server ,中文意思:客户端与服务器端架构,这种架构也是从用户层面(也可以是物理层面)来划分的. 这里的客户端一般泛指客户端应用程序EXE,程序需要先安装后,才 ...
mui 点击长按复制文本
项目需要长按复制文本内容,由于也没仔细研究过 mui 所以就直接百度.看到了花落乱了流年这篇博客我就把这个博客的代码融合到自己的项目里,实现了复制的需求直接上代码单独写到了一个 js 文件. ...
kafka一致性语义保证
一.消息传递语义:三种,至少一次,至多一次,精确一次 1.at lest once:消息不丢,但可能重复 2.at most once:消息会丢,但不会重复 3.Exactly Once:消息不丢,也 ...
Dubbo生产者和消费者经典案例
一.导入依赖 <dependency> <groupId>javaee</groupId> <artifactId>javaee-api</art ...
go协程的特点
go奉行通过通信来共享内存,不像c和c++通过共享内存来通信协程是轻量级的线程,编译器做优化** 有独立的栈空间共享程序堆空间调度由用户控制协程是轻量级的线程并行:多个cpu共同执行并发 ...

基于 Binlog + Flink 实现多表数据同构/异构方案

基于 Binlog + Flink 实现多表数据同构/异构方案的更多相关文章

随机推荐

热门专题