企业有了ELT就不需要ETL了?别被忽悠了
最近几年,ELT(Extract, Load, Transform)这个词在数据圈里挺火。有些人甚至说,有了ELT,ETL(Extract, Transform, Load)就该退出历史舞台了。作为一个干了十多年ETL的老兵,我觉得有必要说道说道。
先说说这两个概念。ETL是先把数据抽取出来,经过处理转换后再加载到目标系统。ELT则是先把原始数据加载进来,然后在目标系统里做转换。乍一看,ELT似乎更高效,毕竟少了中间环节。
ETL架构,大部分转换在ETL中完成:
ELT架构,ETL的转换是在数仓中通过调度平台来实现的:
ELT确实有它的优势。比如说:
- 数据加载快,因为不用预先处理
- 灵活性强,想怎么转换都行
- 充分利用目标系统(通常是数据仓库)的计算能力
但是,这就意味着ETL没用了吗?那可不是。
首先,ETL的应用范围远不止数据仓库。很多人以为ETL就是为了给数仓导数据,其实不然。ETL还经常用作数据总线,在不同的业务系统之间打通数据。比如,把CRM系统的客户数据同步到ERP系统,或者把线上订单数据传到物流系统。这种场景下,ETL的作用无可替代。
其次,并不是所有数据都适合直接加载。有些数据质量差,有些格式复杂,直接丢进去会让后续工作变得一团糟。ETL在数据进入主系统前就能解决这些问题。
再者,很多企业的数据来源五花八门,格式各异。ETL可以在中间层统一处理,让数据仓库专注于分析而不是清洗。
还有就是安全性。ETL可以在数据进入核心系统前就做好脱敏、过滤等工作,降低风险。
值得一提的是,现代的ETL工具其实已经包含了ELT的功能。它们可以根据需要灵活选择在哪个阶段进行转换。这就意味着,使用ETL工具并不等于放弃了ELT的优势。
那么,到底该用哪个?其实要根据具体情况来定:
- 如果是跨系统的数据集成,ETL更合适。
- 如果数据质量高,格式统一,而且后续分析需求变化快,用ELT不错。
- 如果数据来源复杂,质量参差不齐,安全要求高,还是ETL更靠谱。
- 大多数情况下,两种方法一起用效果最好。
ETL和ELT各有所长。ETL不仅仅是为了数据仓库,它在企业数据集成中扮演着重要角色。同时,很多ETL工具已经能够灵活地支持ELT模式。明白了它们的特点,才能在合适的地方用合适的工具。别被新概念忽悠了,关键是解决实际问题。
选择数据处理方案时,要考虑你的具体需求:是简单的数据仓库加载,还是复杂的跨系统集成?是否需要严格的数据质量控制?系统间的实时性要求如何?回答这些问题,才能找到最适合你的解决方案。
企业有了ELT就不需要ETL了?别被忽悠了的更多相关文章
- 采用ETL with RDBMS模式来实现ETL
目前Teradata数据仓库的ETL作业采用ELT方式, 因为loading太重了, 需要将ETL压力转移到专门的ETL Server上. 对于ETL工具, 市场上已有很成熟的商业/开源工具, 比如I ...
- 四川软件人才网:打造四川最专业的IT人才招聘平台
四川软件人才网(www.tfsp.net),原名:天府软件人才网:为了更好的发展和拓展的业务需要,更名为:四川软件人才网,强力打造四川最专业的IT人才的招聘平台. 网站依托四川软件人才社区,微博,微信 ...
- 绝对实用 NAT + VLAN +ACL管理企业网络
在企业中,要实现所有的员工都能与互联网进行通信,每个人各使用一个公网地址是很不现实的.一般,企业有1个或几个公网地址,而企业有几十.几百个员工.要想让所有的员工使用这仅有的几个公网地址与互联网通信该怎 ...
- WPF外包公司——北京动点飞扬软件:开发企业WPF项目需要掌握些什么
做为企业开发一个WPF项目,对于很多不熟悉微软WPF技术和XAML语言开发团队而言,北京动点飞扬在此给各位一点建议: 1.首先开发团队要整体对于XAML和WPF的运作机制熟悉. 2.开发人员起码要会用 ...
- 如何计算IP地址及CIDR(收藏)
如何计算IP地址及CIDR 一. IP地址概念 IP地址是一个32位的二进制数,它由网络ID和主机ID两部份组成,用来在网络中唯一的标识的一台计算机.网络ID用来标识计算机所处的网段:主 机ID用来标 ...
- 研究一家公司 z
第一部分:确定一家公司的“质地”(描绘一家公司的总体印象) 1.1 天花板 天花板是指企业或行业的产品(或服务)趋于饱和.达到或接近供大于求的状态.在进行投资之前 ...
- 【转】物业管理与移动互联网科技|微信公众平台,物业app,物业O2O
[导语]当下,物业管理行业正在接受新科技浪潮的冲击和洗礼,业界企业纷纷探索物业服务的新发展模式.云服务.微社区.微信公众平台.app等,这些本来陌生的词汇在物业管理行业变得耳熟能详.在借助科技手段拓展 ...
- 如何计算IP地址及CIDR,子网掩码计算
如何计算IP地址及CIDR 一. IP地址概念 IP地址是一个32位的二进制数,它由网络ID和主机ID两部份组成,用来在网络中唯一的标识的一台计算机.网络ID用来标识计算机所处的网段:主 机ID用来标 ...
- 从java程序员到CTO的成长路线图
很多新人不知道从事java开发,具体的发展路径是怎么样的,甚至很多人都不能区分程序猿和攻城师的区别.包括不少小白,从事java开发都半年,甚至1年了,对职业发展还没有清晰的认证.这非常不利于自己的发展 ...
- poj2342 Anniversary party【树形dp】
转载请注明出处,谢谢:http://www.cnblogs.com/KirisameMarisa/p/4316097.html ---by 墨染之樱花 [题目链接]http://poj.org/p ...
随机推荐
- 关于Cesium渲染PrimitiveCollection和图层的树状管理的问题
原文:关于Cesium渲染PrimitiveCollection和图层的树状管理的问题 - 搜栈网 (seekstack.cn)
- strftime()函数的用法
strftime()函数的用法 strftime()函数可以把YYYY-MM-DD HH:MM:SS格式的日期字符串转换成其它形式的字符串.strftime()的语法是strftime(格式, 日期/ ...
- c#运算符重载(operator)
适用范围:C# 7.0及以上版本 C#学习-运算符重载(operator) - 百度文库 (baidu.com) 官网文档:Operator overloading - C# reference | ...
- ArrayList中的contains方法
ArrayList类的contains方法 如果此 collection 包含指定的元素,则返回 true. 具体实现 public boolean contains(Object o) { retu ...
- 工具 | ysoSimple
0x00 简介 ysoSimple是一款简易的Java漏洞利用工具,集成Java反序列化,Hessian反序列化,XStream反序列化,SnakeYaml反序列化,Shiro550,JSF反序列化, ...
- XXL-MQ v1.3.0 | 分布式消息队列
Release Notes 1.[增强]消费者分组属性 "group" 支持为空,为空时自动赋值UUID,方便实现多分组广播消费: 2.[增强]海量数据堆积:消息数据存储在DB中, ...
- 【MOOC】华中科技大学操作系统慕课答案-第1~3章单元测试
单选 1 下列说法错误的是 . A. 手工操作阶段,资源利用率低的原因是因为程序的准备和撤销都需要手工完成. B. 单道批处理系统中CPU和外设交替工作和空闲. √C. 单道批处理系统效率之所以比手工 ...
- 百图生科:基于 JuiceFS 构建生命科学大模型存储平台,成本降 90%
百图生科(BioMap)由百度创始人李彦宏先生联合创立,专注于生命科学领域的人工智能技术.公司推出了全球最大的生命科学 AI 基础模型 xTrimo V3,拥有 2100 亿参数,覆盖蛋白质.DNA. ...
- My Calendar III——LeetCode⑪
//原题链接https://leetcode.com/problems/my-calendar-iii/submissions/ 题目描述 Implement a MyCalendarThree cl ...
- 卷积神经网络(CNN)模型
一.概述 卷积神经网络(Convolutional Neural Network, CNN)是一种深度学习模型,广泛应用于图像识别.计算机视觉等领域.其设计理念源于对生物视觉皮层神经机制的模拟,核 ...