Azure Data Factory(一)入门简介
一,引言
今天分享一个新的Azure 服务-----Azure Data Factory(Azure 数据工厂),怎么理解,参考根据官方解释-----数据工厂解释:大数据需要可以启用协调和操作过程以将这些巨大的原始数据存储优化为可操作的业务见解的服务。 Azure 数据工厂是为这些复杂的混合提取-转换-加载 (ETL)、提取-加载-转换 (ELT) 和数据集成项目而构建的托管云服务。
说简单点,Azure Data Factory 可以创建和计划数据驱动型工作,也就是 Pineline,从不同的数据源(如:Azuer Storage,File, SQL DataBase,Azure Data Lake等)中提取数据,进行加工处理,进行复杂计算后,将这些有价值的数据可以归档,存储到不同的目标源(如:Azuer Storage,File, SQL DataBase,Azure Data Lake等)
二,正文
Azure Data Factory 中的Pipeline 通常执行以下三个步骤:
1,连接,收集:连接,收集是指在构建 pipeline 时需要有数据源,然后再将数据源中提取出来的数据进行加工处理,通过使用 Data Factory 中的 pipeline ,添加 “Activites” 操作,将数据从本地和云的源数据存储移到云的集中数据存储进行进一步的分析。

2,转换和扩充:将DataSet 中收集到的数据源的数据,可以使用一些其他的服务,例如 DataB ,Machine Learning进行数据处理,转化,可以将这些数据转化成有价值的,可信的生产环境的数据
3,发布:这里的发布,并不是指代码的发布,而是指手动触发将转化、处理好的数据传送到目标源,同时可以设置Trgger ,定时执行发布计划。

Azure Data Factory 中一些关键组件:
1,pipeline:这里的 pipeline 要和Azure DevOps 中的 pipeline 概念上有些类似,它是指我们的Azure Data Factory 可以包含一个或者多个 pipeline 。pipeline是有多个Activites组成,来执行一项任务的。如下图所示,这里显示多个pipeline。

2,Activities:一个pipeline 可以有多个 Activities,这些是对数据执行的一些动作,例如 复制数据,如下图,当前 Pipeline 中包含了一个 Copy data

3,datasets(数据集):简单理解,就是包含了 数据源、目标源。数据集可识别不同数据存储(如表、文件、文件夹和文档)中的数据,使用零个或多个 "datset" 作为输入,一个或多个 "dataset" 作为输出。
4,linked services:链接服务就好比链接字符串,密钥等信息,用于定义Azure Data Factory 链接到外部资源时所需哟啊的连接信息,如下图链接服务指链接到Azure Storage Account 所需要的连接字符串。
同时,点击 “Test connection” 进行测试,是否可以正常连接。

Data Factory 中 Data Set,Activity,Linked Service,Pipeline 直接的关系

Azure Data Factory不存储任何数据。我们可以使用它用于创建数据驱动型工作流,在支持的数据存储之间协调数据的移动(创建一个包含 pipiline 的 Data Factory,将数据从 Blob1 存储移动到 Blob2 存储)。 它还可以用于在其他区域或本地环境中通过计算服务来处理数据。 它还允许使用编程方式及 UI 机制来监视和管理工作流。
三,结尾
今天只是对 Azure Data Factory 有一个初步的认识,以及可以用来做什么,下一篇文章实际创建Aure Data Factory,通过创建 pipeline 配置将 storage1 的数据复制到 storage2 中。
参考资料:Azure Data Factory(英文),Azure Data Factory(中文)
作者:Allen
版权:转载请在文章明显位置注明作者及出处。如发现错误,欢迎批评指正。
Azure Data Factory(一)入门简介的更多相关文章
- Azure Data Factory(二)复制数据
一,引言 上一篇主要只讲了Azure Data Factory的一些主要概念,今天开始新的内容,我们开始通过Azure DevOps 或者 git 管理 Azure Data Factory 中的源代 ...
- Azure Data Factory(三)集成 Azure Devops 实现CI/CD
一,引言 由于上一节文章内容过长,无法分享Azure Data Factory 的持续集成,持续发布.今天将着重介绍一下在使用 Azure DevOps Pipeline 发布,自动进行持续集成,并且 ...
- Azure Data Factory(四)集成 Logic App 的邮件通知提醒
一,引言 上一篇有介绍到使用Azure Data Factory 复制数据,然后有集成 Azure DevOps 实现CI/CD,但是对于真正的项目来说,这些肯定是不够的,比如说在执行 Azure P ...
- Azure Data Factory(五)Blob Storage 密钥管理问题
一,引言 之前讲解的ADF 集成Azure DevOps 实现CI/CD,在 Releases Pipeline 阶段,我们是将两个 Blob Storage 的链接字符串复制.粘贴到 "O ...
- ADF 第一篇:Azure Data Factory介绍
Azure Data Factory(简写 ADF)是Azure的云ETL服务,简单的说,就是云上的SSIS.ADF是基于云的ETL,用于数据集成和数据转换,不需要代码,直接通过UI(code-fre ...
- 徒手打造基于Spark的数据工厂(Data Factory):从设计到实现
在大数据处理和人工智能时代,数据工厂(Data Factory)无疑是一个非常重要的大数据处理平台.市面上也有成熟的相关产品,比如Azure Data Factory,不仅功能强大,而且依托微软的云计 ...
- Azure Data Lake(一) 在NET Core 控制台中操作 Data Lake Storage
一,引言 Azure Data Lake Storage Gen2 是一组专用于大数据分析的功能,基于 Azure Blob Storage 构建的.Data Lake Storage Gen2 包含 ...
- Azure Key Vault(二)- 入门简介
一,引言 在介绍 Azure Key Vault 之前,先简单介绍一下 HSM(硬件安全模块). -------------------- 我是分割线 -------------------- 1,什 ...
- MongoDB入门简介
MongoDB入门简介 http://blog.csdn.net/lolinzhang/article/details/4353699 有关于MongoDB的资料现在较少,且大多为英文网站,以上内容大 ...
随机推荐
- Xmind 2020 破解教程
前言: 今天用xmind试用版记了会笔记,发现哎哟还真好用,于是乎我脑子一热,点击激活,发现年费好尼玛贵,瞬间我就冷静下来了. 于是乎,脑海里立马浮现出两个字:破解!好了废话不多说,直接上傻瓜教程.( ...
- Android App 侧边栏菜单的简单实现
效果图 Layout 注意事项 想要实现侧边栏,需要配合使用DrawerLayout.因为会用到嵌套布局,所以根布局不能是 ConstraintLayout,最好使用 LinearLayout 布局. ...
- Centos-显示文件类型-file
file 长度为0的文件则显示为空位文件,对于软链接文件则显示链接的真实文件路径,默认输出会有文件名 相关选项 -b 只显示文件类型结果 -L 显示软链接指向文件的类型 -z 显示压缩文件信息 -i ...
- Code Test(2)
1110test T1:Inversion逆序数对1(inversion.cpp/in/out 1s 256M)给定N的值,要求找出一个N的全排列,这个全排列中,逆序数有M对.这样的结果会存在多个解, ...
- 学习git这一篇就够了!!!
git命令操作 本地库操作 初始化本地仓库 初始化命令 git init $ work % cd workspace $ workspace % mkdir WebService //创建文件夹 $ ...
- 证明RSA算法在明文和公私钥中N不互质情况下仍然成立
关于RSA的基础过程介绍 下文中的 k 代表自然数常数,不同句子,公式中不一定代表同一个数 之前接触RSA,没有过多的思考证明过程,今天有感而发,推到了一遍 假设公钥 (e, N) , 私钥 (d, ...
- asp.net mvc核心、实体框架和simplepagin .js中的分页
下载demo - 516.1 KB , 介绍 这篇文章将解释如何在asp.net mvc核心应用程序中进行分页,目标是enity框架,并使用jquery模板simplepagin .js. 我的一个应 ...
- vue+element ui 关闭弹窗前清空form表单的值
this.$refs['disposeConfigsform'].resetFields();
- antd pro 路由
概要 antd pro 路由简介 路由, 菜单和面包屑 页面之间的路由 带参数的路由 总结 概要 路由配置是单页应用的核心之一, antd pro 将所有的路由配置集中在一个文件中, 可以更好的对应用 ...
- linux块设备驱动---相关结构体(转)
上回最后面介绍了相关数据结构,下面再详细介绍 块设备对象结构 block_device 内核用结构block_device实例代表一个块设备对象,如:整个硬盘或特定分区.如果该结构代表一个分区,则其成 ...