Azure Data Factory(一)入门简介
一,引言
今天分享一个新的Azure 服务-----Azure Data Factory(Azure 数据工厂),怎么理解,参考根据官方解释-----数据工厂解释:大数据需要可以启用协调和操作过程以将这些巨大的原始数据存储优化为可操作的业务见解的服务。 Azure 数据工厂是为这些复杂的混合提取-转换-加载 (ETL)、提取-加载-转换 (ELT) 和数据集成项目而构建的托管云服务。
说简单点,Azure Data Factory 可以创建和计划数据驱动型工作,也就是 Pineline,从不同的数据源(如:Azuer Storage,File, SQL DataBase,Azure Data Lake等)中提取数据,进行加工处理,进行复杂计算后,将这些有价值的数据可以归档,存储到不同的目标源(如:Azuer Storage,File, SQL DataBase,Azure Data Lake等)
二,正文
Azure Data Factory 中的Pipeline 通常执行以下三个步骤:
1,连接,收集:连接,收集是指在构建 pipeline 时需要有数据源,然后再将数据源中提取出来的数据进行加工处理,通过使用 Data Factory 中的 pipeline ,添加 “Activites” 操作,将数据从本地和云的源数据存储移到云的集中数据存储进行进一步的分析。
2,转换和扩充:将DataSet 中收集到的数据源的数据,可以使用一些其他的服务,例如 DataB ,Machine Learning进行数据处理,转化,可以将这些数据转化成有价值的,可信的生产环境的数据
3,发布:这里的发布,并不是指代码的发布,而是指手动触发将转化、处理好的数据传送到目标源,同时可以设置Trgger ,定时执行发布计划。
Azure Data Factory 中一些关键组件:
1,pipeline:这里的 pipeline 要和Azure DevOps 中的 pipeline 概念上有些类似,它是指我们的Azure Data Factory 可以包含一个或者多个 pipeline 。pipeline是有多个Activites组成,来执行一项任务的。如下图所示,这里显示多个pipeline。
2,Activities:一个pipeline 可以有多个 Activities,这些是对数据执行的一些动作,例如 复制数据,如下图,当前 Pipeline 中包含了一个 Copy data
3,datasets(数据集):简单理解,就是包含了 数据源、目标源。数据集可识别不同数据存储(如表、文件、文件夹和文档)中的数据,使用零个或多个 "datset" 作为输入,一个或多个 "dataset" 作为输出。
4,linked services:链接服务就好比链接字符串,密钥等信息,用于定义Azure Data Factory 链接到外部资源时所需哟啊的连接信息,如下图链接服务指链接到Azure Storage Account 所需要的连接字符串。
同时,点击 “Test connection” 进行测试,是否可以正常连接。
Data Factory 中 Data Set,Activity,Linked Service,Pipeline 直接的关系
Azure Data Factory不存储任何数据。我们可以使用它用于创建数据驱动型工作流,在支持的数据存储之间协调数据的移动(创建一个包含 pipiline 的 Data Factory,将数据从 Blob1 存储移动到 Blob2 存储)。 它还可以用于在其他区域或本地环境中通过计算服务来处理数据。 它还允许使用编程方式及 UI 机制来监视和管理工作流。
三,结尾
今天只是对 Azure Data Factory 有一个初步的认识,以及可以用来做什么,下一篇文章实际创建Aure Data Factory,通过创建 pipeline 配置将 storage1 的数据复制到 storage2 中。
参考资料:Azure Data Factory(英文),Azure Data Factory(中文)
作者:Allen
版权:转载请在文章明显位置注明作者及出处。如发现错误,欢迎批评指正。
Azure Data Factory(一)入门简介的更多相关文章
- Azure Data Factory(二)复制数据
一,引言 上一篇主要只讲了Azure Data Factory的一些主要概念,今天开始新的内容,我们开始通过Azure DevOps 或者 git 管理 Azure Data Factory 中的源代 ...
- Azure Data Factory(三)集成 Azure Devops 实现CI/CD
一,引言 由于上一节文章内容过长,无法分享Azure Data Factory 的持续集成,持续发布.今天将着重介绍一下在使用 Azure DevOps Pipeline 发布,自动进行持续集成,并且 ...
- Azure Data Factory(四)集成 Logic App 的邮件通知提醒
一,引言 上一篇有介绍到使用Azure Data Factory 复制数据,然后有集成 Azure DevOps 实现CI/CD,但是对于真正的项目来说,这些肯定是不够的,比如说在执行 Azure P ...
- Azure Data Factory(五)Blob Storage 密钥管理问题
一,引言 之前讲解的ADF 集成Azure DevOps 实现CI/CD,在 Releases Pipeline 阶段,我们是将两个 Blob Storage 的链接字符串复制.粘贴到 "O ...
- ADF 第一篇:Azure Data Factory介绍
Azure Data Factory(简写 ADF)是Azure的云ETL服务,简单的说,就是云上的SSIS.ADF是基于云的ETL,用于数据集成和数据转换,不需要代码,直接通过UI(code-fre ...
- 徒手打造基于Spark的数据工厂(Data Factory):从设计到实现
在大数据处理和人工智能时代,数据工厂(Data Factory)无疑是一个非常重要的大数据处理平台.市面上也有成熟的相关产品,比如Azure Data Factory,不仅功能强大,而且依托微软的云计 ...
- Azure Data Lake(一) 在NET Core 控制台中操作 Data Lake Storage
一,引言 Azure Data Lake Storage Gen2 是一组专用于大数据分析的功能,基于 Azure Blob Storage 构建的.Data Lake Storage Gen2 包含 ...
- Azure Key Vault(二)- 入门简介
一,引言 在介绍 Azure Key Vault 之前,先简单介绍一下 HSM(硬件安全模块). -------------------- 我是分割线 -------------------- 1,什 ...
- MongoDB入门简介
MongoDB入门简介 http://blog.csdn.net/lolinzhang/article/details/4353699 有关于MongoDB的资料现在较少,且大多为英文网站,以上内容大 ...
随机推荐
- 802.1X 账号密码+设备信息双重认证
名词解释 802.1X: IEEE802 LAN/WAN 委员会为解决无线局域网网络安全问题,提出了 802.1X 协议.后来,802.1X协议作为局域网端口的一个普通接入控制机制在以太网中被广泛应用 ...
- (转载)浏览器 user-agent 字符串的故事
本文转载自:http://www.cnblogs.com/ifantastic/p/3481231.html. 如有侵权,请联系处理! 你是否好奇标识浏览器身份的User-Agent,为什么每个浏 ...
- Centos-内核核心组成
linux内核,相当于linux大脑,高可靠和高稳定都是针对内核来说 完整linux核心组成部分 1. 内存管理 合理有效的管理整个系统的物理内存,同时快速响应内核各子系统对内存分配的请求 2. 进程 ...
- 安装zabbix3.0以及升级到5.0过程
关闭防火墙: systemctl stop firewalld.service systemctl disable firewalld.service 需要关闭 selinux,一定要关闭这个,开启s ...
- 014 01 Android 零基础入门 01 Java基础语法 02 Java常量与变量 08 “字符型”字面值
014 01 Android 零基础入门 01 Java基础语法 02 Java常量与变量 08 "字符型"字面值 字符型 字面值如何表示? 两个关键:单引号(必须是英文单引号). ...
- JavaFX FileChooser文件选择器、DirectoryChooser目录选择器
参考:https://www.yiibai.com/javafx/javafx_filechooser.html 参考:https://blog.csdn.net/dorma_bin/article/ ...
- 微型直流电机控制基本方法 L298N模块
控制任务 让单个直流电机在L298N模块驱动下,完成制动.自由停车,正反转,加减速等基本动作 芯片模块及电路设计 图1 L298N芯片引脚 图2 L298N驱动模块 表1 L298N驱动模块的控制引脚 ...
- pycharm 解决PEP8问题,配置autopep8到菜单栏
autopep8是一个可以将Python代码自动排版为PEP8风格第三方包,使用它可以轻松地排版出格式优美整齐的代码.网络上有很多介绍如何在pycharm中配置autopep8的方案,但很多方案中还是 ...
- 微信小程序实时将less编译为wxss
1.npm或者yarn全局安装wxss-cli npm install -g wxss-cli 2.运行waxes-cli命令(mp_wx为小程序目录) wxss ./mp_wx 实时监听mp_wx目 ...
- Windows下CertUtil校验和编码文件
目录 前言 CertUtil计算文件hash 计算MD2 计算MD4 计算MD5 计算SHA1 计算SHA256 计算SHA384 计算SHA512 文件base64编码 文件base64解码 文件h ...