简介: 数据集成是简单高效的数据同步平台,致力于提供具有强大的数据预处理能力、丰富的异构数据源之间数据高速稳定的同步能力,为数据中台的建设打好坚实的数据基座。

数据中台是当下大数据领域最前沿的数据建设体系, 它并不是从零开始, 无中生有的。数据中台是传统的数据仓库的一种升级, 是数据采集、建设、管理与使用的一整套体系。Dataphin是一个构建数据中台的强大工具, 数据集成是Dataphin的组成部分,负责数据“采”、“建”、“管”“用”中的采集部分。数据集成是简单高效的数据同步平台,致力于提供具有强大的数据预处理能力、丰富的异构数据源之间数据高速稳定的同步能力,为数据中台的建设打好坚实的数据基座。

(Dataphin:面向各行各业大数据建设、管理及应用诉求,一站式提供从数据接入到数据消费全链路的智能数据构建与管理的大数据能力,包括产品、技术和方法论等,助力打造标准统一、融会贯通、资产化、服务化、闭环自优化的智能数据体系,以驱动创新。)

数据集成定位

数据集成是数据中台建设中最基础的工作,将不同系统的数据相互打通,实现数据自由离线或实时流动。

面对各行各业对大数据越来越多的应用,对数据集成也有了更多的诉求。包括:能够简单高效的配置大量数据表的同步任务;能够集成多种异构数据源;能够实现对数据源的数据进行轻度预处理;能够实现数据同步任务的调优(例如容错,限速,并发)等。Dataphin的数据集成模块主要面向企业数据开发人员,以组件拖拉拽的形式,帮助企业高效构建大数据流通管道,从而将各种烟囱状态的数据汇聚到数据中台

数据集成能力

数据集成旨在为用户构建简单高效、安全可靠的数据同步平台:

  • 支持通过整库迁移(快速生成批量同步任务)和一键生成目标表的方式,提高数据集成的效率。
  • 支持流程和转换组件,实现数据源的数据预处理(例如清洗、转换、字段脱敏、计算、合并、分发、过滤等)能力。
  • 支持丰富的异构数据源,实现数据源之间数据高速稳定的同步能力。
  • 支持Dev-Prod和Basic的开发模式,您可以根据业务场景进行灵活选择开发模式。
  • 支持将Dataphin中创建的逻辑表快速地同步到目标库。
  • 用户可自定义系统尚未支持的数据源组件,以满足不同业务场景数据同步的需求。

数据集成场景关注要点

易用性

用户进行数据中台建设时,需要集成的表的数量往往很多,需要进行大量重复的繁琐配置工作。

Dataphin的数据集成通过高效的拖拽式操作,自动化一键自动建表、组件复制和整体管道配置复制,批量化的整库迁移等操作可大大提高系统的易用性及操作效率。

Dataphin的数据集成的画布数据的输入、转换、输出组件、采集工作流、采集任务等可视化功能,使管理员直观的掌握数据采集情况。

Dataphin的数据集成在任务搭建过程中支持同步任务试运行、度量查看、数据预览,方便用户进行数据集成任务的调试。

多源异构的数据同步能力

在企业信息化建设过程中,由于各业务系统建设和实施数据管理系统的阶段性、技术性以及其它经济和人为因素等因素影响,导致企业在发展过程中积累了大量采用不同存储方式的业务数据,包括采用的数据管理系统也大不相同,从简单的文件数据库到复杂的网络数据库,它们构成了企业的异构数据源。

在数据中台的建设中,需要支持各种异构数据源的数据集成,Dataphin的数据集成可支持30+种数据源的支持,同时可自定义数据源进行灵活接入。

数据预处理、同步配置能力

在数据集成过程中,来源端数据会有轻度预处理诉求,比如敏感数据加密、数据过滤、分库分表数据合并、追 加字等。也会有各式各样同步配置诉求,如容错,限速,并发,同步过程调试等。

Dataphin的数据集成支持数据清洗转换能力,提供字段计算、合并、分发、过滤、字段脱敏等组件或函数,支持容错配置、并发配置、限速配置等。

以上就是Dataphin的核心功能数据集成的介绍, 希望能帮助您更好地使用Dataphin数据集成功能。

原文链接

本文为阿里云原创内容,未经允许不得转载。

Dataphin功能:集成——如何将业务系统的数据抽取汇聚到数据中台的更多相关文章

  1. 统一门户与业务系统的sso整合技术方案(单点登录)

    一.单点登录(SSO,Single Sign On)整合目前计划接入统一门户的所有业务系统均为基于JavaEE技术的B/S架构系统.由于统一门户的单点登录技术选用的是JA-SIG组织开发的Cas Se ...

  2. Slickflow.NET 开源工作流引擎基础介绍(二) -- 引擎组件和业务系统的集成

    集成流程引擎的必要性 业务过程的变化是在BPM系统中常见的现象,企业管理层需要不断优化组织架构,改造业务流程,不可避免地带来了业务流程的变化,企业信息系统就会随之面临重构的可能性.一种直接的方式是改造 ...

  3. Atitit.业务系统的新特性 开发平台 新特性的来源总结

    Atitit.业务系统的新特性 开发平台 新特性的来源总结 1.1. 语言新特性(java c# php js python lisp c++ oc swift ruby  go dart1 1.2. ...

  4. 领域驱动设计(DDD)在美团点评业务系统的实践

    前言 至少 30 年以前,一些软件设计人员就已经意识到领域建模和设计的重要性,并形成一种思潮,Eric Evans 将其定义为领域驱动设计(Domain-Driven Design,简称 DDD).在 ...

  5. .NET持续集成与自动化部署之路第一篇——半天搭建你的Jenkins持续集成与自动化部署系统

    .NET持续集成与自动化部署之路第一篇(半天搭建你的Jenkins持续集成与自动化部署系统) 前言     相信每一位程序员都经历过深夜加班上线的痛苦!而作为一个加班上线如家常便饭的码农,更是深感其痛 ...

  6. 用uniGUI做B/S下业务系统的产品原型体验

    从10月份到重庆工作后,一直忙于工作,感兴趣的几个方面的技术都处于暂停. 一个多月来,按照公司要求在做B/S集中式基卫产品的原型,主要是画原型图,开始是用Axure,弄来弄去感觉功能还是弱了些,尤其是 ...

  7. 为 10000+ 业务系统提供数据可视化能力的 AntV 又进化了

    小蚂蚁说: 2018 年 AntV 品牌日以知新.知心为主题,旨在让产品一直「知新」,与用户一直「知心」.AntV 是蚂蚁金服全新一代数据可视化解决方案,致力于提供一套简单方便.专业可靠.无限可能的数 ...

  8. 关键业务系统的JVM参数推荐(2018仲夏版) (强烈推荐 唯品会)

    年更贴,因为两年里遇到的事情,一些想法变了.也补充了不少VJTools的内容,比如为伸手党们准备的jvm-options.sh. 在关键的业务系统里,除了继续追求技术人员最爱的高吞吐与低延时之外,系统 ...

  9. Atitit.biz业务系统 面向框架  面向模式---------数据映射imp

    Atitit.biz业务系统 面向框架  面向模式---------数据映射imp 1.1. 面向变量  面向过程  面向对象 面向组件  面向框架  面向服务 面向模式1 1.2. 第2章 架构模式 ...

  10. Data Warehouse 业务系统不入仓表

    根据数据仓库的实施经验,凡符合如下特征的表,建议不入仓. ① 备份数据表 此类表是对现有表中某个时点数据的一份拷贝,根据需要进行数据恢复使用.因此,只需取当前表中的数据即可. ② 冗余数据表 同一类数 ...

随机推荐

  1. NJUPT第一次积分赛

    NJUPT第一次积分赛 最近在忙第二次积分赛以及一些很复杂的队友关系(人际关系好复杂,好想电赛出个单机模式),但最后结果还是很满意的. 突然想起来第一次积分赛写的屎山,遂拿出来给大火闻闻 没啥很新颖的 ...

  2. django(图书管理系统)

    一.表的设计 from django.db import models # Create your models here. class Book(models.Model): title = mod ...

  3. 三维模型OBJ格式轻量化顶点压缩主要技术方法分析

    三维模型OBJ格式轻量化顶点压缩主要技术方法分析 三维模型的OBJ格式轻量化中,顶点压缩是一项重要的技术方法,用于减小模型文件的大小.以下是关于三维模型OBJ格式轻量化顶点压缩的主要技术方法的分析: ...

  4. Python实现简易版Netcat

    Netcat Netcat是一种网络工具,也称为"nc",可用于在计算机网络之间进行TCP/IP或UDP连接.它可以用于连接到其他计算机上的端口,发送和接收数据,扫描端口以及创建服 ...

  5. 高防dns和高防IP一样吗?

    高防DNS和高防IP一样吗? 高防DNS和高防IP在功能和目标上有所不同,因此它们并不完全相同. 高防DNS是一种针对DNS服务的防护措施,旨在保护域名解析免受DDoS攻击等网络威胁的影响.它利用高防 ...

  6. 【已解决】Hadoop_02 bash: start-all.sh: 未找到命令...Linux

    在配置hadoop时需要进到/etc/profile中修改hadoop路径 #配置Hadoop和Java环境 export JAVA_HOME=/JDK-1.8 #你自己Java的安装路径 expor ...

  7. #单调栈,树状数组#CF1635F Closest Pair

    题目 设 \(f(x,y)=|a_x-a_y|*(w_x+w_y)\),其中 \(a\) 单调递增 多组询问求 \(\min_{l\leq l'<r'\leq r}\{f(l',r')\}\) ...

  8. #单位根反演,二项式定理#LOJ 6247 九个太阳

    题目 \[\large {\sum_{i=0}^n[k|i]C(n,i)}\pmod {998244353} \] 其中\(n\leq 10^{18}\),\(k=2^p,p\in [0,20]\) ...

  9. Manacher小记

    目录 前言 洛谷 3805[模板]manacher算法 题目 分析 代码 洛谷 4555 最长双回文串 题目 分析 代码 洛谷 1659 拉拉队排练 题目 分析 代码 前言 皆移植于原csdn博客,略 ...

  10. 《Spring 测试指南》:JPA、MockMvc 和 @SpringBootTest 详解

    测试 Spring 提供了一组测试工具,可以轻松地测试 Spring 应用程序的各个组件,包括控制器.服务.存储库和其他组件.它具有丰富的测试注释.实用程序类和其他功能,以帮助进行单元测试.集成测试等 ...