CDC+ETL实现数据集成方案

欢迎咨询，合作！ weix：wonter

名词解释：

CDC又称变更数据捕获（Change Data Capture），开启cdc的源表在插入INSERT、更新UPDATE和删除DELETE活动时会插入数据到日志表中。CDC通过捕获进程将变更数据捕获到变更表中，通过cdc提供的查询函数，我们可以捕获这部分数据。

ETL数据仓库技术（Extract-Transform-Load），它是将数据从源系统加载到数据仓库的过程。用来描述将数据从来源端经过萃取（extract）、转置（transform）、加载（load）至目的端的过程。使用到的工具包含（kettle、flume、sqoop）。

Kettle基于JAVA的ETL工具，支持图形化的GUI设计界面，然后可以以工作流的形式流转，在做一些简单或复杂的数据抽取、质量检测、数据清洗、数据转换、数据过滤等方面有着比较稳定的表现。

Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。

Sqoop是Apache开源软件，主要用于在HADOOP(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递。
适用于能与大数据集群直接通信的关系数据库间的大批量数据传输。

数据集成方案对比

数据集成有两种方案：

一种是通过ESB接口方式进行数据集成，优点是数据的时效性高，但最大的弊端是依赖于业务系统的接口改造，往往会涉及和厂商的接口费用。另一种方式就是通过ETL方式抽取数据，并通过CDC方式实现数据实时同步，优点是不依赖于业务系统，只需要获取业务系统数据库权限便可实现集成。

CDC+ETL数据集成方案

第一步：通过kettle抽取历史数据到数仓中间库。

支持图形化的GUI设计界面，方便第一轮实施人员无业务化操作流程，稳定、高效。

第二步：业务系统镜像数据库启动CDC功能，并实时同步数据到数仓中间库。

该技术通过读取镜像数据库日志文件，解析回放数据库操作方式，实现业务数据变更捕获。日志读取、解析、回放等操作都是在镜像数据库上进行，业务数据库只会产生少量的I/O开销，以最大限度地降低对业务系统的影响。

第三步：通过Sqoop从中间库抽取历史数据到Haoop。

使用颐东数仓配置数据目录映射关系，自动生成跨数据库抽取的SQL语句。

第四步：基础表通过CDC功能实时同步数据到Hadoop。

基础表为人员信息表、数据字典表等会经常维护变更的表。

第五步：记录表通过flume增量实时抽取数据到Hadoop。

记录表为数据携带时间戳的表，该表内容变更多以修改操作状态形式增量添加。

第六步：数据中台

数据湖提供数据中台服务，根据业务活动，自定义勾选数据集市所需字段，生成ElasticSearch索引，并自动生成数据接口。

需要考虑的几个问题

做数据集成前需要对业务表进行分析

1、哪些表是基础表（需对原数据做物理变更操作），哪些表是记录表

2、集成后哪些数据需要实时查询，哪些数据可以离线查询（生成调度任务，延时给出结果。）

数据应用

CDC+ETL实现数据集成方案的更多相关文章

DataPipeline CTO陈肃：从ETL到ELT，AI时代数据集成的问题与解决方案
引言:2018年7月25日,DataPipeline CTO陈肃在第一期公开课上作了题为<从ETL到ELT,AI时代数据集成的问题与解决方案>的分享,本文根据陈肃分享内容整理而成. 大家好 ...
Kafka ETL 之后，我们将如何定义新一代实时数据集成解决方案？
上一个十年,以 Hadoop 为代表的大数据技术发展如火如荼,各种数据平台.数据湖.数据中台等产品和解决方案层出不穷,这些方案最常用的场景包括统一汇聚企业数据,并对这些离线数据进行分析洞察,来达到辅助 ...
【ODI】| 数据ETL：从零开始使用Oracle ODI完成数据集成（一）
0. 环境说明及软件准备 ODI(Oracle Data Integrator)是Oracle公司提供的一种数据集成工具,能高效地实现批量数据的抽取.转换和加载.ODI可以实现当今大多数的主流关系型数 ...
【ODI】| 数据ETL：从零开始使用Oracle ODI完成数据集成（二）
前一节已经完成了Oracle数据库和ODI的安装,并已经为ODI在Oracle数据库中创建了两个用户,分别用于存放主资料库数据和工作资料库数据,在ODI中完成主资料库和工作资料库的创建,也分别为其创建 ...
【ODI】| 数据ETL：从零开始使用Oracle ODI完成数据集成（三）
资料库的创建.体系结构的创建.模型反向工程都已经完成了,下面就是创建以及执行接口来完成工作了. 浏览前两节请点击: [ODI]| 数据ETL:从零开始使用Oracle ODI完成数据集成(一) [OD ...
DataPipeline丨构建实时数据集成平台时，在技术选型上的考量点
文 | 陈肃 DataPipeline CTO 随着企业应用复杂性的上升和微服务架构的流行,数据正变得越来越以应用为中心. 服务之间仅在必要时以接口或者消息队列方式进行数据交互,从而避免了构建单一数 ...
基于Kafka Connect框架DataPipeline在实时数据集成上做了哪些提升？
在不断满足当前企业客户数据集成需求的同时,DataPipeline也基于Kafka Connect 框架做了很多非常重要的提升. 1. 系统架构层面. DataPipeline引入DataPipeli ...
打造实时数据集成平台——DataPipeline基于Kafka Connect的应用实践
导读:传统ETL方案让企业难以承受数据集成之重,基于Kafka Connect构建的新型实时数据集成平台被寄予厚望. 在4月21日的Kafka Beijing Meetup第四场活动上,DataPip ...
深度对比Apache CarbonData、Hudi和Open Delta三大开源数据湖方案
摘要:今天我们就来解构数据湖的核心需求,同时深度对比Apache CarbonData.Hudi和Open Delta三大解决方案,帮助用户更好地针对自身场景来做数据湖方案选型. 背景我们已经看到, ...

随机推荐

电脑开机后多了OneKey Ghost启动选项怎么解决
原文地址:http://www.xitongcheng.com/jiaocheng/dnrj_article_18745.html 大多数用户在使用OneKey Ghost安装电脑系统后,会在开机启动 ...
Dubbo入门到实战
前沿:在当下流行的分布式架构中Dubbo是非常流行的一门技术,借着这几天有空学习学习,并在后面的项目中进行实战,为后面的分布式项目做铺垫. Dubbox简介 Dubbox 是一个分布式服务框架,其前身 ...
equals()和hashCode()使用总结
equals()和hashCode()使用总结 equals() Object类中的equals方法和"=="是一样的,没有区别,即俩个对象的比较是比较他们的栈内存中存储的内存地址 ...
Docker深入浅出系列 | 容器初体验
目录 Docker深入浅出系列 | 容器初体验教程目标预备工作容器与虚拟化技术什么是Docker 为什么要用Docker 事例什么是容器镜像和容器容器与虚拟机的区别 Vagrant与Doc ...
PyCharm2019.3.3专业版完美激活
在 PYPL 编程语言榜单上,Python 因近几年受欢迎程不断提高而继续霸榜.俗话说“萝卜青菜,各有所爱”,在众多的编辑器当中,因每个人的使用习惯不同,也会选择各自的喜欢的编辑器.Pycharm 分 ...
Docker 代理脱坑指南
Docker 代理配置由于公司 Lab 服务器无法正常访问公网,想要下载一些外部依赖包需要配置公司的内部代理.Docker 也是同理,想要访问公网需要配置一定的代理. Docker 代理分为两种,一 ...
LinearLayout里面的空间居中对齐
<?xml version="1.0" encoding="utf-8"?> <LinearLayout xmlns:android=&quo ...
Android 开启与关闭软键盘
http://www.cnblogs.com/weixing/p/3300908.html InputMethodManager imm = (InputMethodManager)getSystem ...
MybatisDao
一.mybatisDao的编写(原始方式,不用) 1.接口编写 public interface UserDao { public void save(User user); public User ...
最大连续和（dp复习）
最大连续和:给出一段序列,选出其中连续且非空的一段使得这段和最大. stdin: 7 2 -4 3 -1 2 -4 3 stdout: 4 状态转移方程:dp[i]=max(dp[i-1]+a[i], ...

CDC+ETL实现数据集成方案

CDC+ETL实现数据集成方案的更多相关文章

随机推荐

热门专题