什么是ETL--ETL定义、过程和工具选型思路
ETL代表“提取、转换和加载”。ETL 过程在数据集成策略中起着关键作用。ETL允许企业从多个来源收集数据并将其整合到一个集中的位置。ETL还使不同类型的数据可以协同工作。
概述
典型的ETL过程会收集和优化不同类型的数据,然后将数据传送到数据仓库。
ETL 还使在各种来源、目的地和分析工具之间迁移数据成为可能。因此,ETL流程在生成商业智能和执行更广泛的数据管理策略方面发挥着关键作用。
ETL 的工作原理
ETL 过程由三个步骤组成,并使数据能够从源头集成到目的地,这三个步骤分别是数据提取、数据转换和数据加载。
第 1 步:提取
很少有企业依赖单一的数据类型或系统。大多数企业拥有来自各种来源的数据,并使用多种数据分析工具来生成商业智能。要制定这样的复杂数据策略,数据必须能够在系统和应用程序之间自由传输。
在将数据移动到新目标之前,必须首先从其源中提取数据。在ETL过程的第一步中,结构化和非结构化数据被导入并整合到一个存储库中。可以从广泛的来源中提取原始数据,包括:
· 现有数据库和遗留系统
· 云、混合和本地环境
· 销售和营销应用
· 移动设备和应用程序
· 客户关系管理系统
· 数据存储平台
· 数据仓库
· 分析工具
虽然可以手动完成,但手工编码的数据提取可能需要大量时间并且容易出错。ETL工具可自动执行提取过程并创建更高效、更可靠的工作流程。
第 2 步:转型
在 ETL 过程的这个阶段,可以应用规则和法规来确保数据质量和可访问性。您还可以应用规则来帮助您的公司满足报告要求。数据转换的过程由几个子过程组成:
· 清理——解决数据中的不一致和缺失值。
· 标准化——格式化规则应用于数据集。
· 重复数据删除— 排除或丢弃冗余数据。
· 验证— 删除不可用的数据并标记异常。
· 排序— 根据类型组织数据。
· 其他任务——可以应用任何附加/可选规则来提高数据质量。
转换通常被认为是 ETL 过程中最重要的部分。数据转换可提高数据完整性,并有助于确保数据到达新目的地时完全兼容并可供使用。
第 3 步:加载
ETL 过程的最后一步是将新转换的数据加载到新目的地。数据可以一次加载(满载)或按预定时间间隔(增量加载)加载。
满载— 在 ETL 满载场景中,来自转换装配线的所有内容都会进入数据仓库中新的、唯一的记录。虽然有时这对研究目的很有用,但完全加载产生的数据集会呈指数增长,并且很快就会变得难以维护。
增量加载——一种不太全面但更易于管理的方法是增量加载。增量加载将传入数据与现有数据进行比较,并且只有在找到新的唯一信息时才会生成额外的记录。这种架构允许使用更小的数据仓库来维护和管理商业智能。
ETL和商业智能
数据战略比以往任何时候都更加复杂,公司可以从更多来源访问更多数据。ETL 可以将大量数据转化为可操作的商业智能。
所有这些数据都必须被提取、转换并加载到新的目的地进行分析。在这种情况下,ETL 通过以下方式帮助创建商业智能:
提供统一数据
管理多个数据集需要时间和协调,并可能导致效率低下和延迟。ETL 将数据库和各种形式的数据组合成一个单一的、统一的视图。这使得分析、可视化和理解大型数据集变得更加容易。
提供历史背景
ETL 允许企业将遗留数据与从新平台和应用程序收集的数据相结合。这会生成数据的长期视图,以便可以查看较旧的数据集以及更新的信息。
提高效率和生产力
ETL 软件使手工编码的数据迁移过程自动化。因此,开发人员及其团队可以将更多时间花在创新上,而减少管理编写代码以移动和格式化数据的时间。
构建您的ETL策略
ETL 可以通过两种方式完成。在某些情况下,企业可能会要求开发人员构建自己的 ETL。然而,这个过程可能是时间密集型,容易出现延迟。
如今,大多数公司都依赖 ETL 工具作为其数据集成过程的一部分。ETL 工具以其速度、可靠性和成本效益以及与更广泛的数据管理策略的兼容性而闻名。ETL 工具还包含广泛的数据质量和数据治理功能。
ETL工具选型
在评估 ETL 工具时,您需要考虑所需连接器的数量和种类,以及它的便携性和易用性。
什么是ETL--ETL定义、过程和工具选型思路的更多相关文章
- 主流ETL(Extract-Transform-Load)工具选型,Kettle Spoon、Datastage、Powercenter介绍
参考:三大主流ETL工具选型 ETL工具 Kettle Spoon 开源ETL工具,所以免费,用java开发的. Ascential公司的Datastage(在2005年被IBM收购现在是 IBM 的 ...
- 研发过程及工具支撑 DevOps 工具链集成
https://mp.weixin.qq.com/s/NYm63nkCymIV3DbL4O01dg 腾讯重新定义敏捷 |Q推荐 小智 InfoQ 2020-09-03 敏捷开发奠基人 Robert C ...
- 第1阶段——uboot分析之查找命令run_command函数和命令定义过程(6)
本节主要学习,run_command函数命令查找过程,命令生成过程 1.run_command函数命令查找过程分析:在u-boot界面中(main_loop();位于u-boot-1.1.6/comm ...
- APP移动端自动化测试工具选型“兵器谱”一览(主流开源工具)
(下面大多数工具都是开源工具,在github,码云等开源平台都能找到) "测试那点事儿”在看到360旗下的测试团队整理的关于目前APP移动端自动化相关的工具,觉得总结的很到位,对目前大多数中 ...
- JMeter特点&性能测试工具选型的原则&模拟压力的原理
1.JMeter自身的特点 1)开源.轻量级.更适合自动化和持续集成(100M左右,LoadRunner 4G左右) 2)学习难度大 3)资料少.全英文 2. 性能测试工具选型的原则 1)成本 a.工 ...
- 三大主流ETL工具选型
ETL(extract, transform and load)产品乍看起来似乎并不起眼,单就此项技术本身而言,几乎也没什么特别深奥之处,但是在实际项目中,却常常在这个环节耗费太多的人力,而在后续的维 ...
- 基于两种架构的ETL实现及ETL工具选型策略
企业信息化建设过程中,业务系统各自为政.相互独立造成的"数据孤岛"现象尤为普遍,业务不集成.流程不互通.数据不共享--.这给企业进行数据的分析利用.报表开发等带来了巨大困难.在此情 ...
- 三大主流ETL工具选型 分类: H2_ORACLE 2013-08-23 11:17 426人阅读 评论(0) 收藏
ETL(extract, transform and load)产品乍看起来似乎并不起眼,单就此项技术本身而言,几乎也没什么特别深奥之处,但是在实际项目中,却常常在这个环节耗费太多的人力,而在后续的维 ...
- 10万级etl批量作业自动化调度工具Taskctl之轻量级Web应用版
什么是批量作业: 批量处理是银行业整个信息后台最为重要的技术形态,也是银行核心信息资产数据的分享.传输.演化的重要技术手段.有调查指出,全球70%的数据是经过批量处理得以再次使用,可见批量处理在整个信 ...
随机推荐
- 实验5、Flask设计模式和Web服务体验
1. 实验内容 Flask appbuilder包括基本的表单验证,内置管理模块.本节主要学习Flask appbuilder的后台管理模块使用和对Flask设计模式拓展作简要介绍 2. 实验要点 掌 ...
- 【VBA】打开关闭工作簿等
打开关闭工作簿等 1 Sub 打开工作簿() 2 Dim sFilePath As String 3 sFilePath = "D:\A.xls" 4 Dim oWB As Wor ...
- Java持久层框架Mybatis入门
MyBatis是什么 MyBatis是Java的持久层框架,GitHub的star数高达15.8k,是Java技术栈中最热门的ORM框架之一.它支持自定义SQL.存储过程以及高级映射,可以通过XML或 ...
- 工作中,如何衡量一个人的 JavaScript 编码水平?
1.立即执行函数 立即执行函数,即Immediately Invoked Function Expression (IIFE),正如它的名字,就是创建函数的同时立即执行.它没有绑定任何事件,也无需等待 ...
- 【题解】滑雪 luogu1434 记忆化搜索
记忆化搜索入门题 题目 Michael喜欢滑雪.这并不奇怪,因为滑雪的确很刺激.可是为了获得速度,滑的区域必须向下倾斜,而且当你滑到坡底,你不得不再次走上坡或者等待升降机来载你.Michael想知道在 ...
- noip2012 总结
Vigenère 密码 题目描述 16 世纪法国外交家 Blaise de Vigenère 设计了一种多表密码加密算法――Vigenère 密码.Vigenère 密码的加密解密算法简单易用,且破译 ...
- FTP下载文件时拒绝登陆申请怎么办?
1.有时候用网页登陆FTP无法下载文件,如下图 2.这时候就需要用文件夹登陆FTP,(打开我的电脑,然后输入ftp://10.2.41.31.如下图 然后就可以下载文件了
- Mongo3基础操作
由于3.X的文档是在3.X当前最新版本前记录,所以这里列出一些常用的操作,比如建立库,删除库,等一些格式,然后在描述开启远程和创建用户的一些区别,以及讲解2.X和3.X配置文件区别. 1. Mongo ...
- 《面试八股文》之kafka21卷
微信公众号:moon聊技术 关注选择" 星标 ", 重磅干货,第一 时间送达! [如果你觉得文章对你有帮助,欢迎关注,在看,点赞,转发] 大家好,我是moon,最新一篇面试八股文系 ...
- CentOS7-磁盘扩容(LVM-非空目录拓展卷空间大小)
查看存储情况 $ df -kh 查看磁盘情况 $ fdisk -l 创建分区(注:可操作存储上限2TB) $ fdisk /dev/sdb 根据提示,依次输入"n","p ...
