一,引言 今天分享一个新的Azure 服务-----Azure Data Factory(Azure 数据工厂),怎么理解,参考根据官方解释-----数据工厂解释:大数据需要可以启用协调和操作过程以将这些巨大的原始数据存储优化为可操作的业务见解的服务. Azure 数据工厂是为这些复杂的混合提取-转换-加载 (ETL).提取-加载-转换 (ELT) 和数据集成项目而构建的托管云服务. 说简单点,Azure Data Factory 可以创建和计划数据驱动型工作,也就是 Pineline,从不同的…
一,引言 上一篇主要只讲了Azure Data Factory的一些主要概念,今天开始新的内容,我们开始通过Azure DevOps 或者 git 管理 Azure Data Factory 中的源代码,同时创建 Pipleline 将 Azure Blob1 的 Container 的数据通过 Copy Data 复制到 Azure Blob2的 Container中.我选择的是Azure DevOps 作为代码管理的工具 --------------------我是分割线----------…
Azure Data Factory(简写 ADF)是Azure的云ETL服务,简单的说,就是云上的SSIS.ADF是基于云的ETL,用于数据集成和数据转换,不需要代码,直接通过UI(code-free UI)来设计,可进行直观监控和管理.用户还可以把现有的SSIS packages部署到Azure,并和ADF完全兼容地运行. 一,ADF适用的场景 在大数据的世界中,原始的.无结构的数据通常存在在关系型.非关系型和其他存储系统中,由于原始数据没有适当的上下文含义,无法被数据分析师.数据科学家提供…
一,引言 由于上一节文章内容过长,无法分享Azure Data Factory 的持续集成,持续发布.今天将着重介绍一下在使用 Azure DevOps Pipeline 发布,自动进行持续集成,并且已自动化发布,将Azure Data Factory 部署到多个环境中. 其实大家也不必惊讶,这里的部署其实也没有多么神秘的,我们在ADF中的 master 分支发布之后,其实会将ADF中所有的配置信息打包,编译到adf_master 分支下面,如果大家仔细看过发布之后的代码,就很很容易发现,都是一…
一,引言 上一篇有介绍到使用Azure Data Factory 复制数据,然后有集成 Azure DevOps 实现CI/CD,但是对于真正的项目来说,这些肯定是不够的,比如说在执行 Azure Pipeline 的过程中的监视,监视 Pipeline 的状态,想通过邮件的方式接受监视信息. --------------------我是分割线-------------------- 1,Azure Data Factory(一)入门简介 2,Azure Data Factory(二)复制数据…
一,引言 之前讲解的ADF 集成Azure DevOps 实现CI/CD,在 Releases Pipeline 阶段,我们是将两个 Blob Storage 的链接字符串复制.粘贴到 "Override template parameters",这样虽然说实现了对应的功能,但是也暴露出一定的问题,就是将 "UAT",甚至 "Pro" 环境的链接字符串暴露出来了,这样是很危险的.也是不允许的. 这个时候,有人就说了,可以使用共享访问签名,设定有效…
一,引言 又到了新的一周了,也到了我新的分享的时间了,还记得上一周立得Flag,其中 “保证每周输出一篇文章” ,让我特别“在意”(这里用词不太恰当).主要是我的一个大学舍友,他突然问了我一个关于写博的事情,自己也在上周开通了账号,也想着坚持写博客.在我看来,这确实是一件好事,写博不仅仅是分享的过程:也是自己提炼写博的一个过程,以及文章组织的能力,对自己还是很有好处的.这不仅仅要写内容要精炼,同时也要让别人能看的懂.加油,默默的在这里给他打气.(ง •_•)ง 好了,开始今天的分析 ------…
通过Powershell 登陆Azure(Azure MoonCake为例)一般常见的有两种方式 1. 用户交互式登陆 前提条件:有一个AAD account 此种登陆方式会弹出一个登陆框,让你输入一个.onmschina.cn的账号,然后根据选择的订阅操作相应的资源. # set Azure Enviroment into China Mooncake. $EnvironmentName ="AzureChinaCloud" # Give your subcriptionID her…
在大数据处理和人工智能时代,数据工厂(Data Factory)无疑是一个非常重要的大数据处理平台.市面上也有成熟的相关产品,比如Azure Data Factory,不仅功能强大,而且依托微软的云计算平台Azure,为大数据处理提供了强大的计算能力,让大数据处理变得更为稳定高效.由于工作中我的项目也与大数据处理相关,于是我就在思考,是否自己也可以设计打造一个数据工厂,以便寻求一些技术痛点的解决方案,并且引入一些有趣的新功能. 因此,我利用业余时间,逐步打造了一个基于Spark的数据工厂,并取名…
背景 相较传统的重量级OLAP数据仓库,“数据湖”以其数据体量大.综合成本低.支持非结构化数据.查询灵活多变等特点,受到越来越多企业的青睐,逐渐成为了现代数据平台的核心和架构范式. 数据湖的核心功能,简单地可以分为数据存储与数据查询计算两个部分,在云端可以有多种的实现选择.在之前的文章中,我们曾介绍Azure上Azure Data Lake Storage (ADLS Gen1)和Azure Data Lake Analytics (ADLA)这一对可配合使用的服务.这对黄金搭档正是为数据湖而生…