什么是ETL--ETL定义、过程和工具选型思路
ETL代表“提取、转换和加载”。ETL 过程在数据集成策略中起着关键作用。ETL允许企业从多个来源收集数据并将其整合到一个集中的位置。ETL还使不同类型的数据可以协同工作。
概述
典型的ETL过程会收集和优化不同类型的数据,然后将数据传送到数据仓库。
ETL 还使在各种来源、目的地和分析工具之间迁移数据成为可能。因此,ETL流程在生成商业智能和执行更广泛的数据管理策略方面发挥着关键作用。
ETL 的工作原理
ETL 过程由三个步骤组成,并使数据能够从源头集成到目的地,这三个步骤分别是数据提取、数据转换和数据加载。
第 1 步:提取
很少有企业依赖单一的数据类型或系统。大多数企业拥有来自各种来源的数据,并使用多种数据分析工具来生成商业智能。要制定这样的复杂数据策略,数据必须能够在系统和应用程序之间自由传输。
在将数据移动到新目标之前,必须首先从其源中提取数据。在ETL过程的第一步中,结构化和非结构化数据被导入并整合到一个存储库中。可以从广泛的来源中提取原始数据,包括:
· 现有数据库和遗留系统
· 云、混合和本地环境
· 销售和营销应用
· 移动设备和应用程序
· 客户关系管理系统
· 数据存储平台
· 数据仓库
· 分析工具
虽然可以手动完成,但手工编码的数据提取可能需要大量时间并且容易出错。ETL工具可自动执行提取过程并创建更高效、更可靠的工作流程。
第 2 步:转型
在 ETL 过程的这个阶段,可以应用规则和法规来确保数据质量和可访问性。您还可以应用规则来帮助您的公司满足报告要求。数据转换的过程由几个子过程组成:
· 清理——解决数据中的不一致和缺失值。
· 标准化——格式化规则应用于数据集。
· 重复数据删除— 排除或丢弃冗余数据。
· 验证— 删除不可用的数据并标记异常。
· 排序— 根据类型组织数据。
· 其他任务——可以应用任何附加/可选规则来提高数据质量。
转换通常被认为是 ETL 过程中最重要的部分。数据转换可提高数据完整性,并有助于确保数据到达新目的地时完全兼容并可供使用。
第 3 步:加载
ETL 过程的最后一步是将新转换的数据加载到新目的地。数据可以一次加载(满载)或按预定时间间隔(增量加载)加载。
满载— 在 ETL 满载场景中,来自转换装配线的所有内容都会进入数据仓库中新的、唯一的记录。虽然有时这对研究目的很有用,但完全加载产生的数据集会呈指数增长,并且很快就会变得难以维护。
增量加载——一种不太全面但更易于管理的方法是增量加载。增量加载将传入数据与现有数据进行比较,并且只有在找到新的唯一信息时才会生成额外的记录。这种架构允许使用更小的数据仓库来维护和管理商业智能。
ETL和商业智能
数据战略比以往任何时候都更加复杂,公司可以从更多来源访问更多数据。ETL 可以将大量数据转化为可操作的商业智能。
所有这些数据都必须被提取、转换并加载到新的目的地进行分析。在这种情况下,ETL 通过以下方式帮助创建商业智能:
提供统一数据
管理多个数据集需要时间和协调,并可能导致效率低下和延迟。ETL 将数据库和各种形式的数据组合成一个单一的、统一的视图。这使得分析、可视化和理解大型数据集变得更加容易。
提供历史背景
ETL 允许企业将遗留数据与从新平台和应用程序收集的数据相结合。这会生成数据的长期视图,以便可以查看较旧的数据集以及更新的信息。
提高效率和生产力
ETL 软件使手工编码的数据迁移过程自动化。因此,开发人员及其团队可以将更多时间花在创新上,而减少管理编写代码以移动和格式化数据的时间。
构建您的ETL策略
ETL 可以通过两种方式完成。在某些情况下,企业可能会要求开发人员构建自己的 ETL。然而,这个过程可能是时间密集型,容易出现延迟。
如今,大多数公司都依赖 ETL 工具作为其数据集成过程的一部分。ETL 工具以其速度、可靠性和成本效益以及与更广泛的数据管理策略的兼容性而闻名。ETL 工具还包含广泛的数据质量和数据治理功能。
ETL工具选型
在评估 ETL 工具时,您需要考虑所需连接器的数量和种类,以及它的便携性和易用性。
什么是ETL--ETL定义、过程和工具选型思路的更多相关文章
- 主流ETL(Extract-Transform-Load)工具选型,Kettle Spoon、Datastage、Powercenter介绍
参考:三大主流ETL工具选型 ETL工具 Kettle Spoon 开源ETL工具,所以免费,用java开发的. Ascential公司的Datastage(在2005年被IBM收购现在是 IBM 的 ...
- 研发过程及工具支撑 DevOps 工具链集成
https://mp.weixin.qq.com/s/NYm63nkCymIV3DbL4O01dg 腾讯重新定义敏捷 |Q推荐 小智 InfoQ 2020-09-03 敏捷开发奠基人 Robert C ...
- 第1阶段——uboot分析之查找命令run_command函数和命令定义过程(6)
本节主要学习,run_command函数命令查找过程,命令生成过程 1.run_command函数命令查找过程分析:在u-boot界面中(main_loop();位于u-boot-1.1.6/comm ...
- APP移动端自动化测试工具选型“兵器谱”一览(主流开源工具)
(下面大多数工具都是开源工具,在github,码云等开源平台都能找到) "测试那点事儿”在看到360旗下的测试团队整理的关于目前APP移动端自动化相关的工具,觉得总结的很到位,对目前大多数中 ...
- JMeter特点&性能测试工具选型的原则&模拟压力的原理
1.JMeter自身的特点 1)开源.轻量级.更适合自动化和持续集成(100M左右,LoadRunner 4G左右) 2)学习难度大 3)资料少.全英文 2. 性能测试工具选型的原则 1)成本 a.工 ...
- 三大主流ETL工具选型
ETL(extract, transform and load)产品乍看起来似乎并不起眼,单就此项技术本身而言,几乎也没什么特别深奥之处,但是在实际项目中,却常常在这个环节耗费太多的人力,而在后续的维 ...
- 基于两种架构的ETL实现及ETL工具选型策略
企业信息化建设过程中,业务系统各自为政.相互独立造成的"数据孤岛"现象尤为普遍,业务不集成.流程不互通.数据不共享--.这给企业进行数据的分析利用.报表开发等带来了巨大困难.在此情 ...
- 三大主流ETL工具选型 分类: H2_ORACLE 2013-08-23 11:17 426人阅读 评论(0) 收藏
ETL(extract, transform and load)产品乍看起来似乎并不起眼,单就此项技术本身而言,几乎也没什么特别深奥之处,但是在实际项目中,却常常在这个环节耗费太多的人力,而在后续的维 ...
- 10万级etl批量作业自动化调度工具Taskctl之轻量级Web应用版
什么是批量作业: 批量处理是银行业整个信息后台最为重要的技术形态,也是银行核心信息资产数据的分享.传输.演化的重要技术手段.有调查指出,全球70%的数据是经过批量处理得以再次使用,可见批量处理在整个信 ...
随机推荐
- typescript 中的 infer 关键字的理解
infer 这个关键字,整理记录一下,避免后面忘记了.有点难以理解呢. infer infer 是在 typescript 2.8中新增的关键字. infer 可以在 extends 条件类型的字句中 ...
- Web端在线实时聊天,基于WebSocket(前后端分离)
这是一个简易的Demo,已经实现了基础的功能 之前一直想实现一个实时聊天的系统,一直没有去实践他.有一天吃饭的时候扫码点菜,几个人点菜能够实时更新,当时就在想,这应该是同一种技术. 刚好前段时间项目上 ...
- 数据同步Datax与Datax_web的部署以及使用说明
一.DataX3.0概述 DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL.Oracle等).HDFS.Hive.ODPS.HBase.FTP等各种异构数据源之间稳定高 ...
- 6.11、制作windos虚拟机
1.下载kvm支持windows系统的驱动程序: cd /tmp/ wget https://fedorapeople.org/groups/virt/virtio-win/direct-downlo ...
- 初识Sonarqube
Sonarqube 官方网站地址: 官方网站地址:https://www.sonarqube.org/ Sonarqube 官方介绍: 使用 SonarQube 静态分析,您可以在一个地方衡量项目中所 ...
- 创建Maven项目骨架并使用
1.archetype是什么? archetype 字面意思是 原型.可以理解为archetype相当于一个脚手架/模板,通过这个脚手架/模板我们可以快速的创建出一个项目. 比如下图中的这些就是mav ...
- C#/VB.NET 设置PDF跨页表格重复显示表头行
在创建表格时,如果表格内容出现跨页显示的时候,默认情况下该表格的表头不会在下一页显示,在阅读体验上不是很好.下面分享一个方法如何在表格跨页时显示表格的表头内容,在C#中只需要简单使用方法grid.Re ...
- Mybatis学习(4)实现关联数据的查询
有了前面几章的基础,对一些简单的应用是可以处理的,但在实际项目中,经常是关联表的查询,比如最常见到的多对一,一对多等.这些查询是如何处理的呢,这一讲就讲这个问题.我们首先创建一个Article 这个表 ...
- spring data jpa执行update和delete语句时报错处理
之前项目中使用spring data jpa时,遇到删除记录的需求时,主要利用spring data中自带的delete()方法处理,最近在dao层使用delete sql语句时报错,代码如下: @Q ...
- 2013年第四届蓝桥杯C/C++程序设计本科B组省赛 第39级台阶
题目描述: 第39级台阶 小明刚刚看完电影<第39级台阶>,离开电影院的时候,他数了数礼堂前的台阶数,恰好是39级! 站在台阶前,他突然又想着一个问题: 如果我每一步只能迈上1个或2个台阶 ...
