DataWorks 功能实践速览
简介: DataWorks功能实践系列,帮助您解析业务实现过程中的痛点,提高业务功能使用效率!
功能推荐:独享数据集成资源组
如上期数据同步解决方案介绍,数据集成的批数据同步任务运行时,需要占用一定的计算资源,这些资源即资源组,通常先从数据来源所在的机器抽取数据至资源组所在的机器,再推送至目标数据源所在的机器。

而进行数据同步时,可以根据实际情况规划使用哪种数据集成资源组,资源组规划的关键点包括连通性和性能两方面。
以下就从数据集成资源组的类型与性能、网络连通性两方面,为您介绍数据集成资源组的详情:
Part1:数据集成资源组的类型与性能对比
DataWorks数据集成支持多种不同资源组:
- 独享数据集成资源组:
购买后可独占使用的资源组。在任务高并发执行且无法错峰运行,需要独享的资源组来保障数据快速、稳定地传输时,您可以选择独享资源组。 - 自定义数据集成资源组:
如果您有富余的服务器资源,也可将此部分资源作为DataWorks中任务运行的资源组使用,DataWorks支持自定义资源组。
以上两种数据集成资源组在应用上的能力对比如下表所示:
|
类别 |
独享资源组 |
自定义资源组 |
|
机器资源归属 |
由DataWorks维护,是自己的租户独享使用的计算资源。 |
由您自己维护,是属于您的IDC机器。 |
|
网络 |
支持VPC、公网和任意网络下的阿里云产品。 |
支持VPC、公网和任意网络下的阿里云产品。 |
|
收费方式 |
根据机器的规格,包年包月计费。 |
DataWorks版本按月使用收费。 |
|
支持的数据源 |
全部数据源 |
全部数据源 |
|
安全性 |
高 |
根据您自身机器所处的环境决定 |
|
任务执行的效率 指任务是否能够分到足够的计算资源,能否以最高性能运行。 |
高 |
根据您自身机器所处的环境决定 |
|
可靠性 指任务是否能够按时启动。执行任务时,网络资源是否被其它租户占用,导致任务不能按时产出结果。 |
高 |
根据您自身机器所处的环境决定 |
|
适用场景 |
大量、重要的生产级别的任务。 |
使用自定义资源组的场景如下:
|
|
推荐指数 |
★★★★★ |
★ |
非常建议您使用独享数据集成资源组来运行数据集成任务。独享数据集成资源组的购买后,您需要完成网络配置和工作空间绑定,后续即可选择与数据源的网络连通方案进行连通配置了。在此之前,独享数据集成资源组的购买与基础配置的操作详情请参见新增和使用独享数据集成资源组。
Part2:数据集成资源组的网络连通方案
进行数据同步时,需要根据数据库所在网络环境,通过对应的网络解决方案,实现对应类型资源组与数据库的网络连通。连通方案概览如下。

以下为您重点介绍独享数据集成资源组的网络连通方案详情,其他资源组类型的网络连通方案可进入帮助中心查看。
场景1:数据源具备访问公网的能力
如果数据源具备公网访问能力的话,那么数据源与资源组之间可以直接通过公网互访。

场景2:数据源在VPC网络中,且VPC和DataWorks在同一个地域
如果数据源在VPC网络中,且VPC和DataWorks在同一个地域,那可以将独享数据集成资源组绑定数据源所在VPC。同时需要关注,资源组与DataWorks是否在同一个可用区中,如果不在同一个可用区中,还需要手动添加一下路由,保障资源组与数据源之间网络是连通的。添加路由的操作详情可参见添加路由。

场景3:数据源在VPC网络中,且VPC和DataWorks在不同的地域
如果数据源在VPC网络中,且VPC和DataWorks在不同的地域中,那您需要为独享数据集成资源组绑定一个VPC,然后通过高速通道、VPN或其他网络连通产品连通资源组绑定的VPC与数据源所在的VPC。
常见的网络连通产品包括:
此外,您依旧需要手动添加一下路由,保障网络连通性。添加路由的操作详情可参见添加路由。

场景4:数据源在IDC内
如果数据源在IDC内,与场景3:数据源在VPC中且与DataWorks不同地域的场景类似,您需要为独享数据集成资源组绑定一个VPC,然后通过高速通道、VPN或其他网络连通产品连通资源组绑定的VPC与数据源所在的VPC。
常见的网络连通产品包括:
此外,您依旧需要手动添加一下路由,保障网络连通性。添加路由的操作详情可参见添加路由。

场景5:数据源在经典网络
如果数据源在经典网络内,则此场景下,不支持数据源与DataWorks资源组网络连通,建议您将数据源迁移至VPC网络中。
PS:阿里云经典网络已不推荐使用,建议您迁移数据源至VPC。
Part3:注意事项——白名单的影响
保障资源组与数据源之间网络连通后,您还需保障资源组与数据源之间不会因为白名单的限制而无法进行数据访问,例如,部分数据源设置白名单后会不允许白名单外的IP访问,您需要将资源组的IP添加至数据源的白名单中。
使用不同类型的数据集成资源组时,需要添加到数据源白名单中的IP地址不一致,详情可进入帮助中心查看,以下为您示例,使用独享数据集成资源组时,需要获取并添加到数据源白名单中的IP地址。
- 交换机网段:

- 独享资源组的EIP地址:

原文链接
本文为阿里云原创内容,未经允许不得转载。
DataWorks 功能实践速览的更多相关文章
- .NET平台开源项目速览(13)机器学习组件Accord.NET框架功能介绍
Accord.NET Framework是在AForge.NET项目的基础上封装和进一步开发而来.因为AForge.NET更注重与一些底层和广度,而Accord.NET Framework更注重与机器 ...
- 互联网巨头们的 SRE 运维实践「GitHub 热点速览 v.21.27」
作者:HelloGitHub-小鱼干 本周大热点无疑是前几天 GitHub 发布的 Copilot,帮你补全代码,给你的注释提出建议,预测你即将使用的代码组件-如此神奇的 AI 技术,恰巧本周微软也开 ...
- .NET平台开源项目速览-最快的对象映射组件Tiny Mapper之项目实践
心情小札:近期换了工作,苦逼于22:00后下班,房间一篇狼藉~ 小翠鄙视到:"你就适合生活在垃圾堆中!!!" 晚上浏览博客园 看到一篇非常实用的博客:.NET平台开源项目速览(14 ...
- 自制车速记录仪「GitHub 热点速览 v.21.31」
作者:HelloGitHub-小鱼干 如果你有一辆普通的自行车,那么就可以使用下 X-TRACK 这个项目制作一个自己的测速器,记录你的行驶轨迹还有车速,体验一把硬件发烧友的乐趣.如果你有一个非 ma ...
- GitHub 公布 2021 Top 10 博文「GitHub 热点速览」
作者:HelloGitHub-小鱼干 2021 年在这周彻底同我们告别了,在本周的「News 快读」模块你可以看到过去一年 GitHub 的热门文章,其中有我们熟悉的可能让很多程序员"失业& ...
- 读 Linux 像读小说「GitHub 热点速览 v.22.03」
本周特推选取了一个画风有点意思的 Linux 代码带读项目 flash-linux0.11-talk,希望有趣的文风能带你读完 Linux 代码.当然画风可以增加阅读体验,彩色标记也是一种学习方法-- ...
- 平平无奇的项目「GitHub 热点速览 v.22.10」
不知道大家对高星项目什么印象?提到这个词第一个想到哪个项目呢?本周有几个项目看着普普通通,却完成了一周 2k+ star 的事迹.比如 SingleFile,它是个浏览器扩展,点击图标之后即可保存一个 ...
- 上半年最中意的 GitHub 更新「GitHub 热点速览 v.22.21」
2022 年的热点速览加入 GitHub 产品动态之后,这次的图片显示是最得我意的,因为可以提升图片查看人的看片体验.而 GitHub 社区方面,GitHub 官方发布了部分开源项目的新版本.与此同时 ...
- 人体调优不完全指南「GitHub 热点速览 v.22.22」
本周特推又是一个人体调优项目,换而言之就是如何健康生活,同之前的 HowToLiveLonger研究全因死亡率不同,这个项目更容易在生活中实践,比如,早起晒太阳这么一件"小事"便有 ...
- 造!又有新的生产力语言了「GitHub 热点速览 v.22.30」
作者:HelloGitHub-小鱼干 你还记得那些 PHP 开发都去哪了吗?转 Golang 了!移动端现在流行什么?Flutter 编程.现在谷歌带着新的生产力语言来了,Carbon,代号:C++ ...
随机推荐
- C#调用百度翻译API自动将中文转化为英文
1.百度翻译开放平台在平台申请你自己的appid,和密钥 2.开通后就在我提供的gitee链接下载代码,直接修改秘钥和appid就能使用如下图所示 3.Gitee链接:链接 4.https://git ...
- 记录--Vue中的$attrs你真的会用吗?
这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助 先来看一个业务需求: 项目经常会遇到产品经理要求你做某组件一样的功能,还要在它的基础上增加东西.如何只用少量代码高效的二次封装组件呢? 例 ...
- 记录--vue3 + mark.js | 实现文字标注功能
这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助 页面效果 具体实现 新增 1.监听鼠标抬起事件,通过window.getSelection()方法获取鼠标用户选择的文本范围或光标的当前位 ...
- 工作记录:Vue3.0新特性
简单对比 Vue2.x 与 Vue3.x 响应式 Vue2 使用Object.defineProperty劫持对象的属性 Vue3 使用Proxy 直接代理对象 由于Object.defineProp ...
- nginx完全卸载删除
nginx卸载 其实很简单,只需要两步即可完成! 第一步:输入以下指令全局查找nginx相关的文件: sudo find / -name nginx* 第二步:删除查找出来的所有nginx相关文件 s ...
- Python 合并Excel数据 (Excel文件单sheet)
一.Python批量合并Excel数据<方法1> import pandas as pd import glob import os # 使用glob.glob函数获取指定目录下所有以.x ...
- 【Spring注解驱动开发】@PostConstruct与@PreDestroy源码的执行过程
写在前面 在前面的<[String注解驱动开发]你真的了解@PostConstruct注解和@PreDestroy注解吗?>一文中,我们简单的介绍了@PostConstruct注解与@Pr ...
- CC2530 中的ZigBee协议栈
CC2530 中的ZigBee协议栈 1.何为协议栈 ZigBee协议栈将各个层的协议集合在一起,并以函数的形式实现,并且向用户提供接口,用户能够直接调用. 它本身就为一个工程. 2. 如何使用 开始 ...
- Java读取excel文件(.xlsx/.xls)和.csv文件存入MySQL数据库
1 package com.reliable.service; 2 3 import com.csvreader.CsvReader; 4 import com.reliable.bean.FileD ...
- CSS浮动---float
一.标准文档流的特性 1.空白折叠 无论多少个空格.换行.tab,都会折叠为一个空格. 2.高矮不齐,底边对齐 3.自动换行,一行放不下就换行写 二.行内元素和块级元素的注意点 1.行内元素不能设置宽 ...