一,架构介绍

生产中由于历史原因web后端,mysql集群,kafka集群(或者其它消息队列)会存在一下三种结构。

1,数据先入mysql集群,再入kafka

数据入mysql集群是不可更改的,如何再高效的将数据写入kafka呢?

A),在表中存在自增ID的字段,然后根据ID,定期扫描表,然后将数据入kafka。

B),有时间字段的,可以按照时间字段定期扫描入kafka集群。

C),直接解析binlog日志,然后解析后的数据写入kafka。

2,web后端同时将数据写入kafka和mysql集群

3,web后端将数据先入kafka,再入mysql集群

这个方式,有很多优点,比如可以用kafka解耦,然后将数据按照离线存储和计算,实时计算两个模块构建很好的大数据架构。抗高峰,便于扩展等等。

二,实现步骤

1,mysql安装准备

安装mysql估计看这篇文章的人都没什么问题,所以本文不具体讲解了。

A),假如你单机测试请配置好server_id

B),开启binlog,只需配置log-bin

[root@localhost ~]# cat /etc/my.cnf

[mysqld]

server_id=1

datadir=/var/lib/mysql

socket=/var/lib/mysql/mysql.sock

user=mysql

# Disabling symbolic-links is recommended to prevent assorted security risks

symbolic-links=0

log-bin=/var/lib/mysql/mysql-binlog

[mysqld_safe]

log-error=/var/log/mysqld.log

pid-file=/var/run/mysqld/mysqld.pid

?

创建测试库和表

create database school character set utf8 collate utf8_general_ci;

?

create table student(

name varchar(20) not null comment '姓名',

sid int(10) not null primary key comment '学员',

majora varchar(50) not null default '' comment '专业',

tel varchar(11) not null unique key comment '手机号',

birthday date not null comment '出生日期'

);

2,binlog日志解析

两种方式:

一是扫面binlog文件(有需要的话请联系浪尖)

二是通过复制同步的方式

暂实现了第二种方式,样例代码如下:

MysqlBinlogParse mysqlBinlogParse=new MysqlBinlogParse(args[0],Integer.valueOf(args[1]),args[2],args[3]){
@Override
public void
processDelete(String queryType,
String
database,
String sql)
{
try
{
String
jsonString=SqlParse.parseDeleteSql(sql);
JSONObject
jsonObject=JSONObject.fromObject(jsonString);
jsonObject.accumulate("database",
database);
jsonObject.accumulate("queryType",
queryType);
System.out.println(sql);
System.out.println("
");
System.out.println("
");
System.out.println(jsonObject.toString());
}
catch
(Exception
e) {
//
TODO
Auto-generated catch block

e.printStackTrace();
}
}

@Override
public void
processInsert(String queryType,
String
database,
String sql)
{
try
{
String
jsonString=SqlParse.parseInsertSql(sql);
JSONObject
jsonObject=JSONObject.fromObject(jsonString);
jsonObject.accumulate("database",
database);
jsonObject.accumulate("queryType",
queryType);
System.out.println(sql);
System.out.println("
");
System.out.println("
");
System.out.println(jsonObject.toString());
}
catch
(Exception
e) {
//
TODO
Auto-generated catch block

e.printStackTrace();
}
}

@Override
public void
processUpdate(String queryType,
String
database,
String sql)
{
String
jsonString;
try
{
jsonString=SqlParse.parseUpdateSql(sql);
JSONObject
jsonObject=JSONObject.fromObject(jsonString);
jsonObject.accumulate("database",
database);
jsonObject.accumulate("queryType",
queryType);
System.out.println(sql);
System.out.println("
");
System.out.println("
");
System.out.println(jsonObject.toString());
}
catch
(Exception
e) {
//
TODO
Auto-generated catch block

e.printStackTrace();
}
}

};
mysqlBinlogParse.setServerId(3);
mysqlBinlogParse.start();

?

?

3,sql语法解析

从原始的mysql 的binlog
event中,我们能解析到的信息,主要的也就是mysql的database,query类型(INSERT,DELETE,UPDATE),具体执行的sql。我这里封装了三个重要的方法。只暴露了这三个接口,那么我们要明白的事情是,美味的英文我们入kafka,然后流式处理的时候希望的到的是跟插入mysql后一样格式的数据。这个时候我们就要自己做sql的解析,将query的sql解析成字段形式的数据,供流式处理。解析的格式如下:

A),INSERT

B),DELETE

C),UPDATE

最终浪尖是将解析后的数据封装成了json,然后我们自己写kafka producer将消息发送到kafka,后端就可以处理了。

三,总结

最后,浪尖还是建议web后端数据最好先入消息队列,如kafka,然后分离线和实时将数据进行解耦分流,用于实时处理和离线处理。

?

消息队列的订阅者可以根据需要随时扩展,可以很好的扩展数据的使用者。

?

消息队列的横向扩展,增加吞吐量,做起来还是很简单的。这个用传统数据库,分库分表还是很麻烦的。

?

由于消息队列的存在,也可以帮助我们抗高峰,避免高峰时期后端处理压力过大导致整个业务处理宕机。

?

具体源码球友可以在知识星球获取。

欢迎大家进入知识星球,学习更多更深入的大数据知识,面试经验,获取更多更详细的资料。


文章来源:https://blog.csdn.net/rlnLo2pNEfx9c/article/details/80682269

kafka源码系列之mysql数据增量同步到kafka的更多相关文章

  1. Kafka源码系列之源码分析zookeeper在kafka的作用

    浪尖的kafka源码系列以kafka0.8.2.2源码为例给大家进行讲解的.纯属个人爱好,希望大家对不足之处批评指正. 一,zookeeper在分布式集群的作用 1,数据发布与订阅(配置中心) 发布与 ...

  2. Kafka 源码剖析

    1.概述 在对Kafka使用层面掌握后,进一步提升分析其源码是极有必要的.纵观Kafka源码工程结构,不算太复杂,代码量也不算大.分析研究其实现细节难度不算太大.今天笔者给大家分析的是其核心处理模块, ...

  3. Kafka源码分析系列-目录(收藏不迷路)

    持续更新中,敬请关注! 目录 <Kafka源码分析>系列文章计划按"数据传递"的顺序写作,即:先分析生产者,其次分析Server端的数据处理,然后分析消费者,最后再补充 ...

  4. MySQL数据实时增量同步到Kafka - Flume

    转载自:https://www.cnblogs.com/yucy/p/7845105.html MySQL数据实时增量同步到Kafka - Flume   写在前面的话 需求,将MySQL里的数据实时 ...

  5. MySQL 源码系列:1:窥探篇

    1:下载源码 http://cdn.mysql.com/Downloads/MySQL-5.6/mysql-5.6.25.tar.gz http://dev.mysql.com/downloads/m ...

  6. 2-14 MySQL初步认识,及CentOS6.8环境,源码方式安装MySQL

    什么是数据库: 存放数据的仓库RDBMS-->(Relational Database Management System) 关系型数据库管理系统DBMS--->(Database Man ...

  7. Sping源码+Redis+Nginx+MySQL等七篇实战技术文档,阿里大佬推荐

    JVM JVM是Java Virtual Machine(Java虚拟机)的缩写,JVM是一种用于计算设备的规范,它是一个虚构出来的计算机,是通过在实际的计算机上仿真模拟各种计算机功能来实现的. 引入 ...

  8. Kafka源码分析(二) - 生产者

    系列文章目录 https://zhuanlan.zhihu.com/p/367683572 目录 系列文章目录 一. 使用方式 step 1: 设置必要参数 step 2: 创建KafkaProduc ...

  9. Kafka源码分析(一) - 概述

    系列文章目录 https://zhuanlan.zhihu.com/p/367683572 目录 系列文章目录 一. 实际问题 二. 什么是Kafka, 如何解决这些问题的 三. 基本原理 1. 基本 ...

随机推荐

  1. Ubuntu18.04--双显卡Nvida笔记本安装之各种问题

    (1)安装   出现卡logo或者黑屏 关机重启,按住esc键或shift键不放,进入选择模式,按F6进入选择,nomodeset模式 (2)循环的登陆,或者安装好后重启无法再次进入系统 关机重启,在 ...

  2. 【Linux shell】 while read line

    循环中的重定向或许你应该在其他脚本中见过下面的这种写法:while read linedo …done < file刚开始看到这种结构时,很难理解< file是如何与循环配合在一起工作的. ...

  3. luogu P2756 飞行员配对方案问题(Dinic板子)

    建立一个超级源点,将每个外籍飞行员连一条capacity为1的路,一个超级汇点,每个英国飞行员也连一条capacity为1的路,根据读入在英国飞行员和外籍飞行员连接capacity为1的路,匹配方案就 ...

  4. Python 100 Days

    Day 1 python的缺点 执行效率稍低,因此计算密集型任务可以由C/C++编写. 在开发时可以选择的框架太多(如Web框架就有100多个),有选择的地方就有错误. python解释器 官方的Py ...

  5. wumii 爆款总结经验

    在正式创办无秘之前,我们反思前几次创业失败的教训,深刻领悟两点: 第一,内容推荐的精准度取决于平台收集用户数据的能力,如果没有用户行为数据,产品无法做内容推荐,而通过简单的新闻排序,延长用户浏览单篇文 ...

  6. Anaconda下的 Jupyter Notebook 安装 多python环境

    装完 Anaconda 会自带一个pyhon环境   也会自带Jupyter Notebook   可以点击开始中的Jupyter Notebook 打开 浏览器 我这里是 3.x 想要装个2.7 的 ...

  7. HihoCoder 1246:王胖浩与环

    #1246 : 王胖浩与环 时间限制:6000ms 单点时限:1000ms 内存限制:256MB 描述 王胖浩有一个环,环上有n个正整数.他有特殊的能力,能将环切成k段,每段包含一个或者多个数字. 对 ...

  8. Element 以二进制的形式 自定义上传图片

    一,只有在上传文件之前的钩子函数中才可以获得最初的文件(文件本身的二进制形式),用以以上传服务器. 还需要使用formdata来承载数据,便于接收 <template>   <div ...

  9. BSGS&ExBSGS

    BSGS&ExBSGS 求解形如 \[a^x\equiv b\pmod p\] 的高次同余方程 BSGS 假装\(gcd(a,p)=1\). 设\(m=\lceil\sqrt p \rceil ...

  10. java类 2.18

    1. 静态方法中可以直接调用同类中的静态成员,但不能直接调用非静态成员.如: 如果希望在静态方法中调用非静态变量,可以通过创建类的对象,然后通过对象来访问非静态变量.如: 2. 在普通成员方法中,则可 ...