Azure Data Factory(一)入门简介
一,引言
今天分享一个新的Azure 服务-----Azure Data Factory(Azure 数据工厂),怎么理解,参考根据官方解释-----数据工厂解释:大数据需要可以启用协调和操作过程以将这些巨大的原始数据存储优化为可操作的业务见解的服务。 Azure 数据工厂是为这些复杂的混合提取-转换-加载 (ETL)、提取-加载-转换 (ELT) 和数据集成项目而构建的托管云服务。
说简单点,Azure Data Factory 可以创建和计划数据驱动型工作,也就是 Pineline,从不同的数据源(如:Azuer Storage,File, SQL DataBase,Azure Data Lake等)中提取数据,进行加工处理,进行复杂计算后,将这些有价值的数据可以归档,存储到不同的目标源(如:Azuer Storage,File, SQL DataBase,Azure Data Lake等)
二,正文
Azure Data Factory 中的Pipeline 通常执行以下三个步骤:
1,连接,收集:连接,收集是指在构建 pipeline 时需要有数据源,然后再将数据源中提取出来的数据进行加工处理,通过使用 Data Factory 中的 pipeline ,添加 “Activites” 操作,将数据从本地和云的源数据存储移到云的集中数据存储进行进一步的分析。
2,转换和扩充:将DataSet 中收集到的数据源的数据,可以使用一些其他的服务,例如 DataB ,Machine Learning进行数据处理,转化,可以将这些数据转化成有价值的,可信的生产环境的数据
3,发布:这里的发布,并不是指代码的发布,而是指手动触发将转化、处理好的数据传送到目标源,同时可以设置Trgger ,定时执行发布计划。
Azure Data Factory 中一些关键组件:
1,pipeline:这里的 pipeline 要和Azure DevOps 中的 pipeline 概念上有些类似,它是指我们的Azure Data Factory 可以包含一个或者多个 pipeline 。pipeline是有多个Activites组成,来执行一项任务的。如下图所示,这里显示多个pipeline。
2,Activities:一个pipeline 可以有多个 Activities,这些是对数据执行的一些动作,例如 复制数据,如下图,当前 Pipeline 中包含了一个 Copy data
3,datasets(数据集):简单理解,就是包含了 数据源、目标源。数据集可识别不同数据存储(如表、文件、文件夹和文档)中的数据,使用零个或多个 "datset" 作为输入,一个或多个 "dataset" 作为输出。
4,linked services:链接服务就好比链接字符串,密钥等信息,用于定义Azure Data Factory 链接到外部资源时所需哟啊的连接信息,如下图链接服务指链接到Azure Storage Account 所需要的连接字符串。
同时,点击 “Test connection” 进行测试,是否可以正常连接。
Data Factory 中 Data Set,Activity,Linked Service,Pipeline 直接的关系
Azure Data Factory不存储任何数据。我们可以使用它用于创建数据驱动型工作流,在支持的数据存储之间协调数据的移动(创建一个包含 pipiline 的 Data Factory,将数据从 Blob1 存储移动到 Blob2 存储)。 它还可以用于在其他区域或本地环境中通过计算服务来处理数据。 它还允许使用编程方式及 UI 机制来监视和管理工作流。
三,结尾
今天只是对 Azure Data Factory 有一个初步的认识,以及可以用来做什么,下一篇文章实际创建Aure Data Factory,通过创建 pipeline 配置将 storage1 的数据复制到 storage2 中。
参考资料:Azure Data Factory(英文),Azure Data Factory(中文)
作者:Allen
版权:转载请在文章明显位置注明作者及出处。如发现错误,欢迎批评指正。
Azure Data Factory(一)入门简介的更多相关文章
- Azure Data Factory(二)复制数据
一,引言 上一篇主要只讲了Azure Data Factory的一些主要概念,今天开始新的内容,我们开始通过Azure DevOps 或者 git 管理 Azure Data Factory 中的源代 ...
- Azure Data Factory(三)集成 Azure Devops 实现CI/CD
一,引言 由于上一节文章内容过长,无法分享Azure Data Factory 的持续集成,持续发布.今天将着重介绍一下在使用 Azure DevOps Pipeline 发布,自动进行持续集成,并且 ...
- Azure Data Factory(四)集成 Logic App 的邮件通知提醒
一,引言 上一篇有介绍到使用Azure Data Factory 复制数据,然后有集成 Azure DevOps 实现CI/CD,但是对于真正的项目来说,这些肯定是不够的,比如说在执行 Azure P ...
- Azure Data Factory(五)Blob Storage 密钥管理问题
一,引言 之前讲解的ADF 集成Azure DevOps 实现CI/CD,在 Releases Pipeline 阶段,我们是将两个 Blob Storage 的链接字符串复制.粘贴到 "O ...
- ADF 第一篇:Azure Data Factory介绍
Azure Data Factory(简写 ADF)是Azure的云ETL服务,简单的说,就是云上的SSIS.ADF是基于云的ETL,用于数据集成和数据转换,不需要代码,直接通过UI(code-fre ...
- 徒手打造基于Spark的数据工厂(Data Factory):从设计到实现
在大数据处理和人工智能时代,数据工厂(Data Factory)无疑是一个非常重要的大数据处理平台.市面上也有成熟的相关产品,比如Azure Data Factory,不仅功能强大,而且依托微软的云计 ...
- Azure Data Lake(一) 在NET Core 控制台中操作 Data Lake Storage
一,引言 Azure Data Lake Storage Gen2 是一组专用于大数据分析的功能,基于 Azure Blob Storage 构建的.Data Lake Storage Gen2 包含 ...
- Azure Key Vault(二)- 入门简介
一,引言 在介绍 Azure Key Vault 之前,先简单介绍一下 HSM(硬件安全模块). -------------------- 我是分割线 -------------------- 1,什 ...
- MongoDB入门简介
MongoDB入门简介 http://blog.csdn.net/lolinzhang/article/details/4353699 有关于MongoDB的资料现在较少,且大多为英文网站,以上内容大 ...
随机推荐
- 《zookeeper原理与实践》笔记
第1章 分布式架构 1.1 分布式 分布式特点:分布性.对等性.并发性.缺乏全局时钟.故障总是会发生. 分布式问题:通讯异常.网络分区(脑裂).三态.节点故障. 1.2 ACID到CAP/BASE ...
- linux 上部署 YApi 可视化接口管理平台
linux 上部署 YApi 可视化接口管理平台: YApi 是一个高效.易用.功能强大的可视化接口管理平台,官方地址 : http://yapi.demo.qunar.com/ 环境要求 nodej ...
- vue学习06 v-show指令
目录 vue学习06 v-show指令 v-show指令是:根据真假切换元素的显示状态 原理是修改元素的display,实现显示隐藏 指令后面的内容,最终都会解析为布尔值(true和false) 练习 ...
- 注解&反射
什么是注解 Annotation是从JDK5.0开始引入的新技术 Annotation的作用: 不是程序本身,可以对程序作出解释.(这一点和注释(comment)没什么区别) > 可以被其他程序 ...
- Logback自定义日志颜色
片段 1 片段 2 LogbackColorful.java package cn.mrxionge.netdemo; import ch.qos.logback.classic.Level; imp ...
- SVN合并分支提示不是祖先关系
开发:dev 测试:test 开发完成后,需要合并到test然后部署,进入测试. F:主干 合并到那里,那里就是主干(要合并到的分支)[起始] T:分支 从那里合并那里就是分支[结束] 备注:需要精确 ...
- mysql-8-subquery
#进阶8:子查询 /* 出现在其他语句中的select语句(嵌套) 分类: 按子查询出现的位置: SELECT 后面 FROM 后面 WHERE 或 HAVING 后面 EXISTS后面 */ USE ...
- “酒香也怕巷子深” Smartflow-Sharp 工作流
导语 老话说得好,"酒香不怕巷子深"可是我又不是什么大咖,写得再好也没人知道.所以我今天准备再写写我的工作流组件,写得不好还请大家见谅.写文章对于我来说,有点感觉"茶壶里 ...
- C#入门——Console.Write()与Console.WriteLine()
参考:https://blog.csdn.net/qujunyao/article/details/72884670 两者区别: Console.Write("abc"); 输出到 ...
- matlab中for 用来重复指定次数的 for 循环
参考:https://ww2.mathworks.cn/help/matlab/ref/for.html?searchHighlight=for&s_tid=doc_srchtitle for ...