业务数据存储是业务系统最基本的构成,构建数据中台,就是要将这些数据集中起来放到一个有更强算力的地方集中处理,所以对于数据集成的能力是构建数据中台最基本要求;

从存储的发展历程来看,由于不同的业务场景需求,带来了数据存储的不同发展路径,在企业发展中随着业务规模的变化,也会选择不同的存储来支撑,所以每个企业一定会存在异构存储,如何将多源异构存储中的数据集成起来是企业做数据中台需要面临的一个巨大问题;

当然,目前行业内有很多人采用一些开源技术组件来实现,比如GitHub上的DataX、HData等,但是由于技术组件的易用性较弱,对于分析师和模型师而言,学习效率和使用便捷度还有待提高;因此集中式、界面化的工具尤为重要;

不久前我们就接触过一个客户,他们是一家有着大概十多年发展历史的零售企业,有线上渠道也有线下自营店,企业发展一直都比较重视信息化,所以基于Oracle的ERP系统、基于MySQL的APP应用、基于ES的搜索系统、基于HBase的数据服务系统,还有第三提供的POS服务,每月同步账单;经年累月,系统变得比较复杂,而且没有当下流行的业务中台架构;

在和客户的业务方、IT部门沟通过程中了解到,目前最首要的需求是希望可以把这些数据统一管理起来,并且在业务上能够发挥一些价值。基于客户诉求和基础信息的了解,目前虽然远期的蓝图不是很清楚,但是短期内对于数据建设的方向是明确的,先完成数据的集成工作,然后再挖掘数据业务价值,当然集成的数据内容要与业务价值考量关联,否则盲目集成,也只是转存了一份数据而已;

基于这些判断,系统梳理了下客户的系统以及使用的存储;

梳理结果如下:

整体IT信息如下:

信息系统:六大模块(前端业务APP、营销工具、运营平台、供应链平台、内部管理平台、OA系统)
存储类型:
关系型数据库:MySQL、Oracle、PostgreSQL
无结构数据存储:FTP、日志文件、ElasticSearch、线下CSV(Excel文件)
NoSQL存储:HBase
集成目标:
MaxCompute(已采购)
集成工具
公共云Dataphin
根据对系统存储和工具的梳理,数据流形式如下:

在整个集成数据流设计中,主要使用的是Dataphin产品,目前存储数据梳理中用到的类型都可以支撑到,更重要是界面化操作,入门门槛比较低,维护和管理起来比较简单,配置下数据源,设置下数据从来源到目标的mapping关系即可。

Step 1. 新建数据源

Step 2. 配置映射关系

Step 3. 发布生产环境

这样一个数据同步任务就创建好,客户这边大概有12个存储源约200个数据表做上云,大概2天的时间就完成了,因此,工具还是很重要的!

我们在项目中所使用的数据集成产品Dataphin就是一个非常方便的工具。

Dataphin数据同步支撑了数据上云最基础的能力,只有数据上云才有可能谈论数据中台建设和数字化转型;

Dataphin数据同步定位于数据上云的管道,集成多源异构存储中的数据,构建数据中台建设的基础原料;在数据同步的设计中,首先将多类型存储介质的元数据进行了标准化,基于这种标准化实现了前端配置的一致体验,避免填写大量的JSON文件进行同步配置的定义,简化配置操作,以提升工程师开发阶段的体验;同时,兼顾客户最终价值需求,即数据能够稳定、高效地完成传输,实现上云,因此数据同步设计的过程中也是非常关注数据同步的性能指标;

目前我们已经实现12种来源存储类型以及14种目标存储类型的支持;覆盖了当前客户使用的大多数数据源类型;同时,由于采用插件式的设计方法,对于异构数据源提供了快速扩展的能力;

按照存储类型划分,保持与DataX定义的标准一致:

  • RDBMS关系型数据库
  1. MySQL
  2. SQL Server
  3. Oracle
  4. PostgreSQL
  5. DRDS
  6. Vertica
  7. 协议支持DB
  • 数仓数据存储
  1. AnalyticDB(只写)
  2. ODPS
  3. Hive
  • NoSQL存储
  1. MongoDB
  2. HBase
  • 无结构化数据存储
  1. HDFS
  2. FTP
  3. ElasticSearch(只写)
    Dataphin数据同步提供了强大的数据传输能力,帮助企业数据高效上云,打破数据孤岛,构建数据中台!

本文作者:王腾

原文链接

本文为云栖社区原创内容,未经允许不得转载。

Dataphin支持哪些数据源的更多相关文章

  1. Quick BI支持哪些数据源(配置操作篇)

    Quick BI 潜心打造了核心技术底座(OLAP分析引擎),实现了SQL解析.SQL调度.SQL优化.查询加速等基础能力,支撑Quick BI的数据分析和查询加速.OLAP分析引擎包括数据源连接.数 ...

  2. ArcGIS支持MongoDB数据源

    ArcGIS支持MongoDB数据源 自从NoSQL推出之后,MongoDB就作为比较杰出的代表受到广大用户的推崇,当然,与之而来的大数据的讨论也非常激烈,GIS数据源向来都是以海量来计算,所以,GI ...

  3. 扩展Log4j支持JNDI数据源

    log4j.properties配置文件: log4j.rootLogger=INFO,db #使用log4j扩展支持JNDI数据源 log4j.appender.db=com.qdgswx.log4 ...

  4. .net core系列之《新一代的配置系统Configuration在支持多数据源,热更新,层级化方面代码快速实践》

    在我们之前.Net Framework的项目中,配置文件是WebConfig或AppcConfig文件,而当我们想要添加我们自定义的节点时,还需要在这个文件中的section中定义我们自定义的节点,这 ...

  5. Visual Studio2015 、2017中如何支持MYSQL数据源

    原文:Visual Studio2015 .2017中如何支持MYSQL数据源 版权声明:本文为博主原创文章,未经博主允许不得转载. https://blog.csdn.net/ght886/arti ...

  6. Quick BI 支持多种数据源进行多维分析

    一.摘要 随着互联网的高速发展,数据量爆发式增长的同时,数据的存储形式也开始呈现出多样性,有结构化存储,如 Mysql, Oracle, SQLServer 等,半结构化甚至非结构化存储,如HBase ...

  7. 扩展GridView实现的一个自定义无刷新分页,排序,支持多种数据源的控件TwfGridView

    最近项目View层越来越趋向于无刷新化,特别是数据展示方面,还要对Linq有很好的支持.在WebFrom模式的开发中,GridView是一个功能很强大,很常用的控件,但是他也不是完美的,没有自带的无刷 ...

  8. Visual Studio2017中如何让Entity Framework工具【ADO.NET实体数据模型】支持MYSQL数据源

    熟悉Entity Framework应该对以下图片不陌生,他就是ADO.NET实体数据模型向导:可以将数据库的表自动生成模型类,或者创建Code First的模型文件. 但是这个模型向导默认只显示微软 ...

  9. spring-boot支持双数据源mysql+mongo

    这里,首先想说的是,现在的web应用,处理的数据对象,有结构化的,也有非结构化的.同时存在.但是在spring-boot操作数据库的时候,若是在properties文件中配置数据源的信息,通过默认配置 ...

随机推荐

  1. 【leetcode】915. Partition Array into Disjoint Intervals

    题目如下: 解题思路:题目要求的是在数组中找到一个下标最小的index,使得index左边(包括自己)子序列的最大值小于或者等于右边序列的最小值.那么我们可以先把数组从最左边开始到数组最右边所有子序列 ...

  2. php floor()函数 语法

    php floor()函数 语法 floor函数是什么意思? php floor()函数用来向下舍入为最接近的整数.语法是floor(number),表示返回不大于参数number的下一个整数,有小数 ...

  3. Session 工作原理

    Session 工作原理 1.创建Session 当用户访问到一个服务器,如果服务器启用Session,服务器就要为该用户创建一个SESSION,在创建这个SESSION的时候,服务器首先检查这个用户 ...

  4. paper 147:Deep Learning -- Face Data Augmentation(一)

    1. 在深度学习中,当数据量不够大时候,常常采用下面4中方法:  (1)人工增加训练集的大小. 通过平移, 翻转, 加噪声等方法从已有数据中创造出一批"新"的数据.也就是Data ...

  5. hasvalue vs !=null

    Which is preferred: Nullable<T>.HasValue or Nullable<T> != null? The compiler replaces n ...

  6. CentOS 7 & php7.2安装 php-redis 扩展

    CentOS 7 & php7.2安装 php-redis 扩展 1.下载phpredis-developcd /tmpwget https://codeload.github.com/php ...

  7. CompletableFuture提高你并发编程能力

    思考:如果有两个顺序执行耗时的方法,你该怎么做??? 例如: public void doHousework() { //烧水 doWater(); //扫地 doFloor(); } 没错,聪明如我 ...

  8. PHP面试 MySQL的SQL语句编写

    MySQL的SQL语句编写 面试题一 有A表(id,sex,par,c1,c2),B(id,age,c1,c2)两张表,其中A.id与B.id关联,现在要求写出一条SQL语句,将B中age>50 ...

  9. PHP代码审计基础

    php核心配置 php.ini 基本配置 语法 大小写敏感 运算符 空值的表达式 安全模式 安全模式 safe_mode = off 用来限制文档的存取,限制环境变量的存取,控制外部程序的执行.PHP ...

  10. 08、python的基础--->文件操作

    注:用btyes方式的一般都是在“非文字类的(比如图片)” 1.文件的读取 >>>第1种 #绝对路径 s = open('E:\天气.txt', mode='r', encoding ...