什么是ETL--ETL定义、过程和工具选型思路
ETL代表“提取、转换和加载”。ETL 过程在数据集成策略中起着关键作用。ETL允许企业从多个来源收集数据并将其整合到一个集中的位置。ETL还使不同类型的数据可以协同工作。
概述
典型的ETL过程会收集和优化不同类型的数据,然后将数据传送到数据仓库。
ETL 还使在各种来源、目的地和分析工具之间迁移数据成为可能。因此,ETL流程在生成商业智能和执行更广泛的数据管理策略方面发挥着关键作用。
ETL 的工作原理
ETL 过程由三个步骤组成,并使数据能够从源头集成到目的地,这三个步骤分别是数据提取、数据转换和数据加载。
第 1 步:提取
很少有企业依赖单一的数据类型或系统。大多数企业拥有来自各种来源的数据,并使用多种数据分析工具来生成商业智能。要制定这样的复杂数据策略,数据必须能够在系统和应用程序之间自由传输。
在将数据移动到新目标之前,必须首先从其源中提取数据。在ETL过程的第一步中,结构化和非结构化数据被导入并整合到一个存储库中。可以从广泛的来源中提取原始数据,包括:
· 现有数据库和遗留系统
· 云、混合和本地环境
· 销售和营销应用
· 移动设备和应用程序
· 客户关系管理系统
· 数据存储平台
· 数据仓库
· 分析工具
虽然可以手动完成,但手工编码的数据提取可能需要大量时间并且容易出错。ETL工具可自动执行提取过程并创建更高效、更可靠的工作流程。
第 2 步:转型
在 ETL 过程的这个阶段,可以应用规则和法规来确保数据质量和可访问性。您还可以应用规则来帮助您的公司满足报告要求。数据转换的过程由几个子过程组成:
· 清理——解决数据中的不一致和缺失值。
· 标准化——格式化规则应用于数据集。
· 重复数据删除— 排除或丢弃冗余数据。
· 验证— 删除不可用的数据并标记异常。
· 排序— 根据类型组织数据。
· 其他任务——可以应用任何附加/可选规则来提高数据质量。
转换通常被认为是 ETL 过程中最重要的部分。数据转换可提高数据完整性,并有助于确保数据到达新目的地时完全兼容并可供使用。
第 3 步:加载
ETL 过程的最后一步是将新转换的数据加载到新目的地。数据可以一次加载(满载)或按预定时间间隔(增量加载)加载。
满载— 在 ETL 满载场景中,来自转换装配线的所有内容都会进入数据仓库中新的、唯一的记录。虽然有时这对研究目的很有用,但完全加载产生的数据集会呈指数增长,并且很快就会变得难以维护。
增量加载——一种不太全面但更易于管理的方法是增量加载。增量加载将传入数据与现有数据进行比较,并且只有在找到新的唯一信息时才会生成额外的记录。这种架构允许使用更小的数据仓库来维护和管理商业智能。
ETL和商业智能
数据战略比以往任何时候都更加复杂,公司可以从更多来源访问更多数据。ETL 可以将大量数据转化为可操作的商业智能。
所有这些数据都必须被提取、转换并加载到新的目的地进行分析。在这种情况下,ETL 通过以下方式帮助创建商业智能:
提供统一数据
管理多个数据集需要时间和协调,并可能导致效率低下和延迟。ETL 将数据库和各种形式的数据组合成一个单一的、统一的视图。这使得分析、可视化和理解大型数据集变得更加容易。
提供历史背景
ETL 允许企业将遗留数据与从新平台和应用程序收集的数据相结合。这会生成数据的长期视图,以便可以查看较旧的数据集以及更新的信息。
提高效率和生产力
ETL 软件使手工编码的数据迁移过程自动化。因此,开发人员及其团队可以将更多时间花在创新上,而减少管理编写代码以移动和格式化数据的时间。
构建您的ETL策略
ETL 可以通过两种方式完成。在某些情况下,企业可能会要求开发人员构建自己的 ETL。然而,这个过程可能是时间密集型,容易出现延迟。
如今,大多数公司都依赖 ETL 工具作为其数据集成过程的一部分。ETL 工具以其速度、可靠性和成本效益以及与更广泛的数据管理策略的兼容性而闻名。ETL 工具还包含广泛的数据质量和数据治理功能。
ETL工具选型
在评估 ETL 工具时,您需要考虑所需连接器的数量和种类,以及它的便携性和易用性。
什么是ETL--ETL定义、过程和工具选型思路的更多相关文章
- 主流ETL(Extract-Transform-Load)工具选型,Kettle Spoon、Datastage、Powercenter介绍
参考:三大主流ETL工具选型 ETL工具 Kettle Spoon 开源ETL工具,所以免费,用java开发的. Ascential公司的Datastage(在2005年被IBM收购现在是 IBM 的 ...
- 研发过程及工具支撑 DevOps 工具链集成
https://mp.weixin.qq.com/s/NYm63nkCymIV3DbL4O01dg 腾讯重新定义敏捷 |Q推荐 小智 InfoQ 2020-09-03 敏捷开发奠基人 Robert C ...
- 第1阶段——uboot分析之查找命令run_command函数和命令定义过程(6)
本节主要学习,run_command函数命令查找过程,命令生成过程 1.run_command函数命令查找过程分析:在u-boot界面中(main_loop();位于u-boot-1.1.6/comm ...
- APP移动端自动化测试工具选型“兵器谱”一览(主流开源工具)
(下面大多数工具都是开源工具,在github,码云等开源平台都能找到) "测试那点事儿”在看到360旗下的测试团队整理的关于目前APP移动端自动化相关的工具,觉得总结的很到位,对目前大多数中 ...
- JMeter特点&性能测试工具选型的原则&模拟压力的原理
1.JMeter自身的特点 1)开源.轻量级.更适合自动化和持续集成(100M左右,LoadRunner 4G左右) 2)学习难度大 3)资料少.全英文 2. 性能测试工具选型的原则 1)成本 a.工 ...
- 三大主流ETL工具选型
ETL(extract, transform and load)产品乍看起来似乎并不起眼,单就此项技术本身而言,几乎也没什么特别深奥之处,但是在实际项目中,却常常在这个环节耗费太多的人力,而在后续的维 ...
- 基于两种架构的ETL实现及ETL工具选型策略
企业信息化建设过程中,业务系统各自为政.相互独立造成的"数据孤岛"现象尤为普遍,业务不集成.流程不互通.数据不共享--.这给企业进行数据的分析利用.报表开发等带来了巨大困难.在此情 ...
- 三大主流ETL工具选型 分类: H2_ORACLE 2013-08-23 11:17 426人阅读 评论(0) 收藏
ETL(extract, transform and load)产品乍看起来似乎并不起眼,单就此项技术本身而言,几乎也没什么特别深奥之处,但是在实际项目中,却常常在这个环节耗费太多的人力,而在后续的维 ...
- 10万级etl批量作业自动化调度工具Taskctl之轻量级Web应用版
什么是批量作业: 批量处理是银行业整个信息后台最为重要的技术形态,也是银行核心信息资产数据的分享.传输.演化的重要技术手段.有调查指出,全球70%的数据是经过批量处理得以再次使用,可见批量处理在整个信 ...
随机推荐
- 详解apollo的设计与使用
简介 apollo 是一款由携程团队开发的配置中心,可以实现配置的集中管理.分环境管理.即时生效等等.在这篇博客中,我们可以了解到: 为什么使用配置中心 如何设计一个配置中心 apollo 是如何设计 ...
- Django(70)接口版本控制
前言 在RESTful规范中,有关版本的问题,用restful规范做开放接口的时候,用户请求API,系统返回数据.但是难免在系统发展的过程中,不可避免的需要添加新的资源,或者修改现有资源.因此,改 ...
- 关于win10 samba访问提示用户名和密码错误的原因
排除掉linux上的配置错误,只需要做到以下两步就可以了: 1.win10系统运行secpol.msc 打开本地安全策略 2.安全策略->本地策略->安全选项 3.右侧找到 网络安全:LA ...
- JMeter定时器种类+详细教程举例
首先,我们先了解一下定时器的常见种类以及它的作用. 原文地址:https://www.cnblogs.com/istart/p/11184533.html 一.定时器种类+作用 上面是我截图的自己有道 ...
- python-geopandas读取、创建shapefile文件
作者:fungis 描述:一个热带生活.乐于分享.努力搬砖的giser 交流邮箱:fungis@163.com shapefile是GIS中非常重要的一种数据类型,在ArcGIS中被称为要素类(Fea ...
- Golang使用proto3协议导致零值字段不显示
Golang使用proto3协议导致零值字段不显示 问题描述 proto协议生成的结构体如果使用直接转成json会导致零值字段不显示,这样的json是有毛病的,可以使用如下方法解决 示例Demo pa ...
- kubelet分析-pvc扩容源码分析
kubernetes ceph-csi分析目录导航 存储的扩容分为controller端操作与node端操作两大步骤,controller端操作由external-resizer来调用ceph完成,而 ...
- SystemVerilog 中的相等运算符:== or === ?
1. 四值逻辑的逻辑运算 在对比SystemVerilog中的相等运算符之前,先来看一下三种最基本的逻辑运算符,下文中以·表示与运算,以+表示或运算,以'表示非运算.我们都知道在逻辑代数中,只有0和1 ...
- ShardingSphere 看这一篇就够了
1.什么是shardingSphere Apache ShardingSphere 是一套开源的分布式数据库中间件解决方案组成的生态圈,它由 JDBC.Proxy 和 Sidecar(规划中)这 ...
- 包机制与javaDOC文档
包机制 包的本质就是个文件夹: 一般利用公司域名倒置作为包名:com.kuangstudy.biog javaDOC文档 package com.kuang.base; /** * @author K ...
