ETL子系统】的更多相关文章

最近在看<Pentaho Kettle 解决方案>,看到 ETL子系统,发现信息量比较大,用简短的语句做一下笔记. ETL子系统有34种子系统,被分成4个部分:抽取.清洗和更正.发布.管理. 一.抽取 子系统1:数据剖析系统 指从不同源系统中搜集数据的统计信息或其他相关信息的过程,目的是分析不同数据源的结构和内容. 子系统2:增量数据捕获系统 目的是捕获系统里的数据的变化.由于数据量大以及网络的延迟,数据完成初始加载后,不应再把数据重新加载一边,为了识别出有变化或更新的数据,增加时间戳或快照的…
ETL定义.四大模块及子系统说明 ——<Pentaho Kettle解决方案>读书笔记 罗小川 目前公司正在进行数据仓库的建设的前期需求整理和项目启动阶段,想简单来谈一下自己对目前公司在用的ODS的kettle ETL的理解,针对日常运维中遇到的问题结合本书介绍的ETL子系统的建立可以更好的解决目前我们公司ODS系统的运维和运行效率问题,同时对后期数仓ETL的整体设计和四大组建进行梳理,笔记中有些内容直接引用原书. 一.什么是ETL ETL: 抽取.转换和加载.将数据从OLTP系统中转移到数据…
第一部分:开始 1         ETL入门 1.1   OLTP和数据仓库对比 1.2   ETL是什么 1.2.1          ETL解决方案的演化过程 1.2.2          ETL基本构成 1.3   ETL.ELT和EII 1.3.1          ETL 1.3.2          EII:虚拟数据整合 1.4   数据整合面临的挑战 1.4.1          方法论:敏捷BI 1.4.2          ETL设计 1.4.3          获取数据…
引言:2018年7月25日,DataPipeline CTO陈肃在第一期公开课上作了题为<从ETL到ELT,AI时代数据集成的问题与解决方案>的分享,本文根据陈肃分享内容整理而成. 大家好!很高兴今天有机会和大家分享一些数据集成方面的看法和应用经验.先自我介绍一下.我叫陈肃,博士毕业于中国科学院大学,数据挖掘研究方向.现在北京数见科技(DataPipeline)任 CTO.之前在中国移动研究院任职算法工程师和用户行为实验室技术经理,之后作为合伙人加入过一家互联网教育公司,从事智能学习方面的研发…
早期, ETL知识作为BI系统的一部分来介绍. 后来在The Data Warehouse ETL Tooket一书中, 系统性的整理了ETL的相关内容, 形成了一篇"ETL里的34个子系统"的介绍, 总结了ETL项目面临的不同任务.  安装类型分类其实主要分为: 1抽取  对应原文子系统1~3 2清洗更正 对应原文4~8 3发布  34个子系统有13个属于这个范畴 4管理  对应原文22~34 5.1 抽取 从不同数据源抽取数据. 访问数据源的政策性风险, 安全性和性能都是挑战. 对…
在本书中,你将学习到以下内容: 规划&设计你的ETL系统 从多种可能的架构中选出最合适的 对实施过程进行管理 管理日常的操作 为ETL过程建立开发/测试/生产环境 理解不同的后台数据结构,包括平面文件.规范化框架.XML框架和星型连接(维度)框架 分析和抽取源数据 创建完整的数据清洗子系统 将数据结构化为维度框架,以便更有效提交给最终用户.商务智能工具.数据挖掘工具.OLAP立方体和分析应用系统 使用同一种技术将数据有效地提交到高度集中的或分布的数据仓库 调整个ETL过程使…
在这部分将按照设计和实现ETL系统的流程展开,将上一个部分的那些子系统按照提取数据.清洗和一致化.向呈现服务器提交以及管理ETL环境等四个方面进行了分类.(是不是说对ETL主要就是掌握这四个方面的内容) ETL处理步骤 提取数据 清洗和一致化 向呈现层提交 管理ETL环境 计划 创建一个高层的.单页的源到目标示意流程 * 测试.选择和实现一种ETL工具 为维度管理.错误处理和其他有关过程设计默认的策略 * * * 通过目标表向下钻取,给出任何复杂数据重组或转换的图形示意,并且设计初步的作业序列…
数据仓库的目标之一是能够为增强业务功能提供适时的.一致的和可靠的数据. 为了达到上述目标,ETL必须按照下述三条标准不断地加以完善: 可靠性 可用性 易管理性 子系统22--作业调度器 子系统23--备份系统 子系统24--恢复和重启系统 子系统25--版本控制系统 子系统27--工作流监视器 子系统28--排序系统 子系统29--沿袭和依赖分析器 子系统30--问题自动调整系统 子系统31--并行/管道系统 子系统32--安全系统 子系统33--合规性管理器 子系统34--元数据知识库管理器…
这部分对ETL系统的架构中34个关键子系统进行分类.ETL其实可以分为下面四个步骤: 抽取.在ETL环境中从源系统收集原始数据并且在对任何对数据的重要重构发生之前都将数据写入磁盘.子系统1到子系统3都支持抽取过程. 清洗和一致化.提高了从源系统接收数据的质量,并且对两个或者多个源系统中的数据进行了合并,创建并强化了一致性维度和一致性度量.子系统4到子系统8描述了支持清洗和一致化过程所需的架构. 提交.从物理上将数据组织和装载到呈现服务器的目标维度模型中.子系统9到子系统21提供了若干种将数据提交…
Atitit.软件仪表盘(0)--软件的子系统体系说明 1. 温度检测报警子系统 2. Os子系统 3. Vm子系统 4. Platform,业务系统子系统 5. Db数据库子系统 6. 通讯子系统 7. 多媒体子系统 8. 推送接口系统 作者::老哇的爪子Attilax艾龙,EMAIL:1466519819@qq.com 转载请注明来源: http://blog.csdn.net/attilax 9. Report 10. Schedu 11. opLog 12. Mail 13. Js调试系…