Azure Data Factory(九)基础知识回顾
一,引言
在本文中,我们将继续了解什么是 Azure Data Factory,Azure Data Factory 的工作原理,Azure Data Factory 数据工程中的数据管道,并了解继承运行时 ----- IR。
--------------------我是分割线--------------------
1,Azure Data Factory(一)入门简介
2,Azure Data Factory(二)复制数据
3,Azure Data Factory(三)集成 Azure Devops 实现CI/CD
4,Azure Data Factory(四)集成 Logic App 的邮件通知提醒
5,Azure Data Factory(五)Blob Storage 密钥管理问题
6,Azure Data Factory(六)数据集类型为Dataverse的Link测试
7,Azure Data Factory(七)数据集验证之用户托管凭证
8,Azure Data Factory(八)数据集验证之服务主体(Service Principal)
9,Azure Data Factory(九)基础知识回顾
二,正文
1,什么是 Azure Data Factory ?
Azure Data Factory 是一种基于云的数据继承服务,允许组织城建,计划和编排数据管道。Azure Data Factory 提供了可视化界面或基于代码的方式来集成来自各种来源的数据,对其进行转化和处理,然后再将其加载到数据目标存储中。
Azure Data Factory 支持广泛的数据源,包括本地和基于云上的数据源,例如 Sql Server,Azure Blob,Dataverse 等等,它还提供数据移动,数据转化,监控和管理等功能,使其成为数据集成的综合解决方案。
2,ADF 的工作原理是什么?
Azure 数据工厂 (ADF) 通过提供可视化界面或基于代码的方法来定义、计划和执行数据管道。这些管道可用于执行各种任务,包括数据移动和转换。
以下是 ADF 工作原理所涉及的步骤:
- 创建数据工厂:第一步是在 Azure 中创建数据工厂。这可以在 Azure 门户中或使用 Azure CLI 完成。
- 定义数据源和目标:创建数据工厂后,您需要定义要在管道中使用的数据源和目标。数据源可以是本地的或基于云的,目标可以是 Azure Data Lake Storage、Azure Blob 存储或 Azure SQL 数据库。
- 创建管道:管道是 ADF 的构建块。它们定义了移动和转换数据所需的步骤。可以在 ADF 可视化界面中或使用 Azure 数据工厂 SDK 创建管道。
- 计划管道:可以安排管道定期运行或按需运行。这允许您自动执行数据管道。
- 监视管道:ADF 提供监视功能,以便您可以监视管道的状态、查看日志并管理已处理的数据。
ADF 是一个功能强大的工具,可以帮助您为各种数据集成场景构建、调度和编排数据管道。对于需要的各种规模的组织来说,这是一个不错的选择到集成来自各种来源的数据并将其加载到各种目标中。
这里有一些额外的细节关于 ADF 的工作原理:
- 数据连接器:ADF 支持各种数据连接器,包括本地数据源和基于云的数据源。这使得您可以轻松地将来自各种来源的数据集成到数据管道中。
- 数据转换:ADF 提供各种数据转换活动,例如复制数据、转换数据和运行脚本。这可以让你到根据以下内容操纵和塑造您的数据到您的需求。
- 调度和监控:ADF 提供调度和监控功能,因此您可以自动执行数据管道并监控数据的状态。这有助于您确保数据管道按预期运行并且数据始终是最新的。
- 集成运行时:ADF 提供集成运行时,负责执行管道中的活动。集成运行时分为三种类型:Azure IR、自托管 IR 和 Azure-SSIS IR。这使您可以根据您的特定需求选择正确的集成运行时。
- 安全功能:ADF 提供多种安全功能到保护您的数据,例如数据加密和访问控制。这可以帮助您确保您的数据安全并且只能访问到授权用户。
3,Azure 数据工厂中的数据管道
ADF 中的管道是数据集成的构建块,使您能够到自动执行复杂的任务,例如数据移动、转换和决策。管道由一项或多项活动组成,它们是 ADF 中的基本工作单元。有多种类型的活动可供选择,每种活动都经过精心设计到执行特定任务。
1)数据移动:
使用复制数据活动到从一个移动数据地点 到其他。此活动支持广泛的数据源和目标,包括本地数据源和基于云的数据源。通过复制数据活动,您可以执行从源数据存储复制数据等操作到目标数据存储或从其中复制数据地点 到数据存储中的另一个。
2)数据转换:
ADF 提供了多种转型活动,使您能够到操纵和塑造您的数据。例如,您可以使用派生列活动到基于表达式、Lookup 活动创建新列到从另一个数据源检索数据,以及聚合活动到汇总数据。ADF 还支持使用 Azure Databricks 或 Azure Functions 进行基于代码的转换,为您提供灵活性到创建量身定制的自定义转换到您的具体需求。
1,控制流:
管道可以包括控制流活动,使您能够到根据条件执行操作。例如,您可以使用 If Condition 活动到根据表达式的结果或 For Each 活动执行不同的活动到对集合中的每个项目执行相同的一组活动。这些活动可以让你到创建可以适应的复杂工作流程到改变数据和条件。
2,依赖关系:
管道可以包括依赖关系活动之间,它决定活动执行的顺序。例如,您可以指定一个活动只能在另一个活动完成后启动,或者多个活动应并行运行。这些依赖关系让你到创建高效的工作流程,最大限度地减少延迟并最大限度地提高资源利用率。
3,监控和管理:
ADF 提供强大的监控和管理功能,使您能够到监视管道的状态、查看日志并管理已处理的数据。您可以在 ADF 可视化界面中查看管道、活动和数据集的状态,或使用 Azure 数据工厂 REST API 以编程方式检索状态信息。这可以让你到快速识别任何问题或瓶颈并采取纠正措施到确保您的数据集成工作流程顺利运行。
4,了解集成运行时 (IR)
集成运行时 (IR) 是 Azure 数据工厂 (ADF) 的基本组件,可帮助您到轻松执行和管理数据集成工作流程。IR 提供了一个安全、可扩展且受管理的环境,用于运行管道中指定的活动,例如数据移动和转换任务。
让我们更深入地研究 Integration Runtime 在 ADF 中的作用:
目的: IR 的主要目标是到为执行数据集成活动提供安全、托管且可扩展的环境。通过抽象基础设施和网络复杂性,IR 使您能够到只专注于构建数据集成逻辑,而不用担心底层细节.
类型:它负责执行管道中的活动。IR 分为三种类型:
- Azure IR:此 IR 用于基于云的数据源和目标之间的数据集成。
- 自托管 IR:此 IR 用于本地和基于云的数据源和目标之间的数据集成。
- Azure-SSIS IR:此 IR 用于需要托管环境来执行 SQL Server Integration Services (SSIS) 包的数据集成方案。
安全性:IR 非常重视安全性,自动处理网络安全和数据加密问题。此外,IR 支持 Azure Active Directory (AAD) 身份验证,使您能够到使用 AAD 凭据安全地访问数据源和目标。
可扩展性:IR设计到应对可扩展性挑战,自动调整基础设施和网络资源到满足您的数据集成任务的需求。例如,IR 可以在峰值负载期间自动增加集群中的节点数量,并在负载下降时自动减少节点数量。
监控:IR提供实时监控和管理功能,使您到跟踪数据集成操作的性能和状态。您可以通过 ADF 可视化界面监视 IR、管道和活动,或使用 Azure 数据工厂 REST API 以编程方式检索状态信息。
总之,集成运行时是 Azure 数据工厂不可或缺的组件,为执行数据集成工作流提供安全、可扩展和托管的环境。借助 IR,您可以灵活、可扩展地执行数据集成操作,让工作变得更加轻松到满足您的数据集成场景的需求。
三,结尾
今天我们继续介绍了 Azure Data Factory 的概念知识,集合前几期实践内容,能更好的了解 Azure Data Factory 常见的组件,更清晰的了解我们可以使用 Azure Data Factory 为我们的项目做哪些贡献了。
Azure Data Factory(九)基础知识回顾的更多相关文章
- java基础知识回顾之---java String final类普通方法
辞职了,最近一段时间在找工作,把在大二的时候学习java基础知识回顾下,拿出来跟大家分享,如果有问题,欢迎大家的指正. /* * 按照面向对象的思想对字符串进行功能分类. * ...
- python爬虫主要就是五个模块:爬虫启动入口模块,URL管理器存放已经爬虫的URL和待爬虫URL列表,html下载器,html解析器,html输出器 同时可以掌握到urllib2的使用、bs4(BeautifulSoup)页面解析器、re正则表达式、urlparse、python基础知识回顾(set集合操作)等相关内容。
本次python爬虫百步百科,里面详细分析了爬虫的步骤,对每一步代码都有详细的注释说明,可通过本案例掌握python爬虫的特点: 1.爬虫调度入口(crawler_main.py) # coding: ...
- Azure Data Factory(三)集成 Azure Devops 实现CI/CD
一,引言 由于上一节文章内容过长,无法分享Azure Data Factory 的持续集成,持续发布.今天将着重介绍一下在使用 Azure DevOps Pipeline 发布,自动进行持续集成,并且 ...
- Azure Data Factory(五)Blob Storage 密钥管理问题
一,引言 之前讲解的ADF 集成Azure DevOps 实现CI/CD,在 Releases Pipeline 阶段,我们是将两个 Blob Storage 的链接字符串复制.粘贴到 "O ...
- C#基础知识回顾-- 反射(3)
C#基础知识回顾-- 反射(3) 获取Type对象的构造函数: 前一篇因为篇幅问题因为篇幅太短被移除首页,反射这一块还有一篇“怎样在程序集中使用反射”, 其他没有什么可以写的了,前两篇主要是铺垫, ...
- C#基础知识回顾-- 反射(1)
C#基础知识回顾-- 反射(1) 反射(reflection)是一种允许用户获得类型信息的C#特性.术语“反射”源自于它的工作方式: Type对象映射它所代表的底层对象.对Type对象进行查询可以 ...
- C#基础知识回顾--线程传参
C#基础知识回顾--线程传参 在不传递参数情况下,一般大家都使用ThreadStart代理来连接执行函数,ThreadStart委托接收的函数不能有参数, 也不能有返回值.如果希望传递参数给执行函数, ...
- Java基础知识回顾之七 ----- 总结篇
前言 在之前Java基础知识回顾中,我们回顾了基础数据类型.修饰符和String.三大特性.集合.多线程和IO.本篇文章则对之前学过的知识进行总结.除了简单的复习之外,还会增加一些相应的理解. 基础数 ...
- C++ 基础知识回顾总结
一.前言 为啥要写这篇博客?答:之前学习的C和C++相关的知识,早就被自己忘到一边去了.但是,随着音视频的学习的不断深入,和C/C++打交道的次数越来越多,看代码是没问题的,但是真到自己操刀去写一些代 ...
- scrapy实战1,基础知识回顾和虚拟环境准备
视频地址 https://coding.imooc.com/learn/list/92.html 一. 基础知识回顾 1. 正则表达式 1)贪婪匹配,非贪婪匹配 .*? 非贪婪 . ...
随机推荐
- C++面试八股文:C++中,设计一个类要注意哪些东西?
某日二师兄参加XXX科技公司的C++工程师开发岗位第9面: 面试官:C++中,设计一个类要注意哪些东西? 二师兄:设计一个类主要考虑以下几个方面:1.面向对象的封装.继承及多态.2.big three ...
- 曲线艺术编程 coding curves 第七章 抛物线(Parabolas)
抛物线 Parabolas 原作:Keith Peters https://www.bit-101.com/blog/2022/11/coding-curves/ 译者:池中物王二狗(sheldon) ...
- python3使用pjsua进行呼叫测试
环境:CentOS 7.6_x64 Python版本 :3.9.12 pjsip版本:2.13 之前写过一篇CentOS7环境编译python3.9版本pjsua的文章: https://w ...
- Spring 中的 Bean
前言 欢迎来到本篇文章,鸽了好久了,今天继续写下 Spring 的内容:Spring 中 Bean 的基本概念.基本写法和 3 种实例化 Bean 的方式等. 什么是 Bean? 我们回顾下,什么是 ...
- 【神经网络】基于GAN的生成对抗网络
目录 [神经网络]基于GAN的生成对抗网络 随着深度学习的快速发展,神经网络逐渐成为人工智能领域的热点话题.神经网络是一种模仿人脑计算方式的算法,其通过大量数据和复杂的计算模型,能够实现复杂的任务和预 ...
- 这问题巧了,SpringMVC 不同参数处理机制引发的思考
这个问题非常有趣,不是SpringMVC 的问题,是实际开发中混合使用了两种请求方式暴露出来的. 问题场景 功能模块中,提供两个 Http 服务.一个是列表查询(application/json 请求 ...
- Kafka中的消费者Offset
消费者位移 每个 consumer 实例都会为它消费的分区维护属于自己的位置信息来记录当前消费了多少条消息.这在 Kafka 中有一个特有的术语:位移(offset). 相比较将offset保存在服务 ...
- 自然语言处理 Paddle NLP - 预训练模型产业实践课-理论
模型压缩:理论基础 模型压缩基本方法分为三类: 量化 裁剪 蒸馏 量化 裁剪 绿线:随机裁剪 30% 已经扛不住了 蓝线:60% 还不错 蒸馏 蒸馏任务与原来的学习任务同时进行. 对于没有标注的数据, ...
- tomcat Filter内存马
idea调试的时候加入源代码 <dependency> <groupId>org.apache.tomcat</groupId> <artifactId> ...
- 使用 Sa-Token 实现不同的登录模式:单地登录、多地登录、同端互斥登录
一.需求分析 如果你经常使用腾讯QQ,就会发现它的登录有如下特点:它可以手机电脑同时在线,但是不能在两个手机上同时登录一个账号. 同端互斥登录,指的就是:像腾讯QQ一样,在同一类型设备上只允许单地点登 ...