MaxCompute可以通过数据集成加载不同数据源(例如:MySQL数据库等)数据,同样也可以通过数据集成把MaxCompute的数据导出到各种业务数据库。数据集成功能已经集成到DataWorks作为数据同步任务进行配置、运行。您可直接在DataWorks上配置MaxCompute数据源,再配置读取MaxCompute表或者写入MaxCompute表任务,数据的导入和导出整个过程只需在一个平台上进行操作。 
DataWorks数据集成是稳定高效、弹性伸缩的数据同步平台,致力于提供复杂网络环境下、丰富的异构数据源之间数据高速稳定的数据移动及同步能力。支持跨经典网络、专有vpc网络的数据同步以及本地IDC的数据同步。还支持20+种异构数据源,包括关系型数据库、大数据存储、非结构化存储、NoSql数据库之间的数据同步。
那么在使用DataWorks进行数据同步的过程中,源数据端和目的端数据源的网络连通性就尤为重要。本文主要描述数据集成的通用连通配置问题。

一.网络类型

经典网络:统一部署在阿里云的公共基础网络内,网络的规划和管理云负责,更适合对网络易用性要求比较高的客户。

专有网络VPC(Virtual Private Cloud):专有网络是您基于阿里云创建的自定义私有网络,不同的专有网络之间逻辑上彻底隔离。您可以在自己创建的专有网络内创建和管理云资源,例如ECS、SLB和RDS等。您也可以完全掌控自己的虚拟网络,包括选择自有的IP地址范围,划分网段以及配置路由表,网关。详情请参见:专有网络VPC

那么ECS 经典网络(Classic)和VPC专有网络特点和区别呢?
• 经典网络:采用三层隔离,是一个共享的基础网络。网络里的ECS实例都在一个共同的生态环境里。如果将经典网络比喻为城市那么网络里的实例就相当于一条街道的房屋或楼宇。房屋配套的围墙和门锁用以提供安全防护,其中围墙相当于安全组,门锁相当于安全组规则。为避免黑客侵入您需要时常关注安全组状况,避免漏设,并防止权限控制漏洞,一旦马虎,黑客便会伺机攻击您的ECS实例。所以经典网络的安全防护高度依赖安全组的权限控制。并且非常忌讳将安全组授权对象设置为0.0.0.0/0这相当于对外不设防风险非常大。
• 专有网络VPC:采用二层隔离是安全增强性网络,更是阿里云首推的独有的云上私有网络。网络里的实例都高度隔绝,相对于经典网络而言,VPC具有更高的安全性和灵活性。每组VPC相当于不同纬度的平行空间,空间之间既不会相交也不会重合,即使单个空间出现了问题也无法影响到其他的空间。即使您不小心忘记设置安全组规则,外人也无法踏足您的网络领域。要实现空间通信两组VPC之间需要建立高能量的高速通道才能通信。使用VPC还能帮您建立起精细的网络管理能力,通过建立虚拟交换机划分子网建立网络隔离机制。

本地IDC网络:您自身构建机房的网络环境,与阿里云网络隔离。

二.独享资源组和自定义资源组

独享资源组

独享资源组主要解决在数据同步过程中资源不足的问题,这时可以通过新增独享资源组的方式进行数据同步。独享资源模式下,机器的物理资源(网络、磁盘、CPU和内存等)完全独享。不仅可以隔离用户间的资源使用,也可以隔离不同工作空间任务的资源使用。此外,独享资源也支持灵活的扩容、缩容功能,可以满足资源独享、灵活配置等需求。独享资源组可以访问在同一地域下的VPC数据源,同时也可以访问跨地域的公网RDS地址。详情请参见:独享资源组


说明 •如果已经打通本地IDC和阿里云专有网络,您可以使用数据集成资源同步任务。请购买独享数据集成资源后,提交工单进行处理,详情请参见独享数据集成资源。
• 独享数据集成资源无法访问阿里云经典网络。如果您的数据源是经典网络,建议使用默认资源组进行同步任务运行。
• 独享数据集成资源组不支持跨区域的VPC数据库同步。
• 如果需要在独享数据集成资源组上进行添加路由等操作,请提交工单进行申请。
• 使用数据集成独享资源组时,请保证数据源自身所在机器可以被该资源组绑定的VPC访问。如果有安全拦截,请对相应的白名单放行,即在数据源侧的白名单添加该资源组绑定的VPC网段。

独享资源部署在DataWorks托管的专有网络(VPC)中,如果需要与您自己的专有网络连通,请进行专有网络绑定操作。具体步骤:
• 进入DataWorks管理控制台,单击概览中的资源组列表。
• 单击相应的资源后的专有网络绑定。

          说明:绑定专有网络前,您需要进行RAM授权,让DataWorks拥有访问云资源的权限。

  • 配置完成后,单击创建。

自定义资源组

DataWorks可以通过免费传输能力(默认任务资源组)进行海量数据上云,但默认资源组无法实现传输速度存在较高要求或复杂环境中的数据源同步上云的需求。您可以新增自定义资源组运行数据同步任务,解决DataWorks默认资源组与您的数据源不通的问题,或实现更高速度的传输能力。详情请参见:自定义资源组

复杂网络环境主要包含以下两种情况: 
(1)数据的来源端和目标端有一端为私网环境。
• VPC环境(除RDS)<->公网环境
• 金融云环境<->公网环境
• 本地自建无公网环境<->公网环境

(2)数据的来源端和目标端均为私网环境。
• VPC环境(除RDS)<->VPC环境(除RDS)
• 金融云环境<->金融云环境
• 本地自建无公网环境<->本地自建无公网环境
• 本地自建无公网环境<->VPC环境(除RDS)
• 本地自建无公网环境<->金融云环境

三.应用场景

本地IDC
• 有公网
• 无公网

ECS自建数据源
• 有公网
• 经典网络
• 专有网络

阿里云产品
• 实例模式添加数据源
• 有公网
• 经典网络
• 专有网络

独享资源组应用场景

场景一:VPC数据源和DataWorks不在同一个地域。独享数据集成资源不支持跨VPC访问,如果您的数据源与DataWorks项目不在同一个地域,操作如下:

  • 在DataWorks工作空间所在的地域创建一个专有网络。
  • 使用云企业网等打通数据源所在专有网络和工作空间所在地域创建的专有网络。
  • 购买与打通的专有网络同可用区的独享数据集成资源,并绑定已打通的专有网络。
  • 提交工单,进行后续网络打通的处理。

场景二:VPC数据源和DataWork在同一个地域。VPC数据源需要使用独享数据集成资源同步任务,需要购买与数据源同可用区的独享数据集成资源,绑定数据源所在的专有网络。如果绑定后同步任务仍然执行失败,请加入专有网络的IP网段至数据源的访问许可内。

自定义资源组的应用场景

• 保证运行资源:由于集群共享默认资源组,会存在水位变高导致任务长时间等待的情况。如果您对任务有较高的资源使用需求,可以使用自定义资源组来自建任务运行集群。
• 连通网络:由于默认资源组无法连通VPC环境下的数据库,您可以使用自定义资源组进行网络连通。
• 用于调度资源组:调度槽位资源紧张的情况下,您可以使用自定义资源组。
• 提升并发能力:默认资源组的运行槽位有限,您可以通过自定义资源组扩大槽位资源,允许更多的并发任务同时调度运行。

四.网络打通解决方案

• 云企业网使用场景示例,请参见云企业网
• 高速通道使用场景示例,请参见高速通道
• VPN网关使用场景示例,请参见VPN网关

查看更多:https://yqh.aliyun.com/detail/6681?utm_content=g_1000106253

上云就看云栖号:更多云资讯,上云案例,最佳实践,产品入门,访问:https://yqh.aliyun.com/

MaxCompute同步数据的网络配置的更多相关文章

  1. 【转】CentOS5.6下配置rsync内网同步数据到外网

    [转]CentOS5.6下配置rsync内网同步数据到外网 本文转自:http://www.linuxidc.com/Linux/2012-06/64070.htm 一.需求 卫士那边有一个需求,就是 ...

  2. Windows 之间用rsync同步数据(cwRsyncServer配置)

    rsync是一款优秀的数据同步软件,在跨服务器,跨机房,跨国备份服务器的首选工具,下面就来介绍下如何配置安装cwRsyncServer很大多数软件一样是B/C架构,cwRsyncServer是rsyn ...

  3. Swift - 同步请求获取网络数据

    使用NSURLConnection可以实现http通信.它提供了异步请求和同步请求两种通信方式. 注意:同步请求数据会造成主线程阻塞,必须请求结束后用户才能做其他的操作,所有通常在请求大数据或者网络不 ...

  4. rsync简介与rsync+inotify配置实时同步数据

    rsync简介 rsync是linux系统下的数据镜像备份工具.使用快速增量备份工具Remote Sync可以远程同步,支持本地复制,或者与其他SSH.rsync主机同步. rsync特性 rsync ...

  5. rsync配置和同步数据

    rsync的搭建配置1.环境和配置文件 rsyncd.conf(主配置文件) rsyncd.secrets(密码文件) pc1:192.168.0.1,rsync的服务器,配置rsyncd.conf文 ...

  6. 06 大数据CentOS6.5mini安装与网络配置

    1. CentOS6.5mini安装 文件>>新建虚拟机 选择自定义,下一步 默认,下一步 选择稍后安装操作系统,下一步 选择CentOS版本,下一步 给虚拟机命名,这个是在VMWare中 ...

  7. rsync在windows和linux同步数据的配置过程

    centos7.0安装rsync3.0.9-17.el7 yum install rsync ===================================================== ...

  8. 大数据之环境准备系列 ——第二篇 新装VMware 虚拟机 网络配置(NAT模式)

    新安装虚拟机,需要配置网络环境,才可以使用ssh客户端(如xshell)远程登录 和 虚拟机访问Internet. 一. WMware 软件配置 WMware版本号:11.0.0 build-2305 ...

  9. linux网络配置、环境变量以及JDK安装(CentOS 6.5)

    由于需要搭建hadoop平台,但是苦于没有现成可用的linux服务器,只好自己下载了CentOS 6.5从头装起,安装过程中遇到了很多问题,比如网络配置.时钟同步.环境变量配置.以及各种服务的启停,还 ...

  10. Docker(六):Docker网络配置进阶

    1.Docker集群网络配置之Weave Weave是Github上一个比较热门的Docker容器网络方案,具有非常良好的易用性且功能强大.仓库地址:https://github.com/weavew ...

随机推荐

  1. pyecharts + Django你不知道这个架构有多美

    pyecharts + Django你不知道这个架构有多美 何为echarts?   pyecharts 是一个用于生成 Echarts 图表的类库.Echarts 是百度开源的一个数据可视化 JS ...

  2. Android resource DarkActionBar not found问题解决

    原文: Android resource DarkActionBar not found问题解决 | Stars-One的杂货小窝 几天没改过的代码,突然就无法打开项目了 报错信息如下 在全网都找不到 ...

  3. day22--Java集合05

    Java集合05 11.HashSet课堂练习 11.1课堂练习1 定义一个Employee类,该类包括:private成员属性name,age 要求: 创建3个Employee对象放入HashSet ...

  4. PAT甲级【1014 Waiting in Line】

    考察双向链表 import java.io.IOException; import java.io.InputStreamReader; import java.io.StreamTokenizer; ...

  5. 浅谈React与SolidJS对于JSX的应用

    React将JSX这一概念深入人心.但,并非只有React利用了JSX,VUE.SolidJS等JS库或者框架都使用了JSX这一概念.网上已经有大量关于JSX的概念与形式的讲述文章,不在本文的讨论范围 ...

  6. tomcat中虚拟主机以及web应用程序的配置

    一:新建虚拟主机 1. 在tomcat里新建文件夹myapps,在里面添加ROOT文件,放入网站的首页文件 新建文本文档,输入你想要的内容我这里的内容是TOM.AI,把文本文档的名字改成index.h ...

  7. 记录--为什么要使用 package-lock.json?

    这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助 前言 随着JavaScript在现代软件开发中的日益重要地位,Node.js生态系统中的npm成为了不可或缺的工具.在npm管理依赖的过程 ...

  8. FreeRTOS教程10 低功耗

    1.准备材料 正点原子stm32f407探索者开发板V2.4 STM32CubeMX软件(Version 6.10.0) Keil µVision5 IDE(MDK-Arm) 野火DAP仿真器 XCO ...

  9. RMI反序列化分析

    RMI介绍 RMI全程Remote Method Invocation (远程方法引用),RMI有客户端和服务端,还有一个注册中心,在java中客户端可以通过RMI调用服务端的方法,流程图如下: 服务 ...

  10. springboot mybatis 多数据源整合

    1.在application.properties中配置两个数据库: # db01 database spring.datasource.db01.jdbc-url=jdbc:oracle:thin: ...