在数据仓库的设计过程中,数据分层是一种重要的组织方式,能够提高数据处理效率和数据质量。数据分层通常包括原始数据(Operational Data Store,ODS)、明细数据(Data Warehouse,DW)和汇总数据(Data Mart,DM)三个层级。下面将详细介绍这三个层级的作用以及如何优雅地设计它们。

一、原始数据层(ODS)

原始数据层是数据仓库的第一层,也是最基础的一层。它主要存储从各个业务系统抽取出来的原始数据,这些数据通常是实时的、未经过处理的。在 ODS 层中,我们需要重点关注以下几个方面:

  • 数据实时性:确保 ODS 层中的数据能够实时地反映业务系统的最新状态。
  • 数据一致性:确保 ODS 层中的数据与业务系统中的数据一致。
  • 数据冗余:由于 ODS 层中的数据直接来自于业务系统,因此可能存在大量的数据冗余。我们需要对数据进行去重或者采用其他方式来减少冗余。

二、明细数据层(DW)

明细数据层是数据仓库的第二层,它从 ODS 层中抽取数据,并进行清洗、转换和整合。DW 层中的数据通常是以日、周、月等时间粒度进行汇总的。在 DW 层中,我们需要重点关注以下几个方面:

  • 数据清洗:对 ODS 层中的数据进行清洗,去除异常值、缺失值等不良数据。
  • 数据转换:对 ODS 层中的数据进行转换,将业务系统的数据转换为适合数据分析的形式。
  • 数据整合:将 ODS 层中的数据进行整合,将分散的数据整合为完整的数据。

三、汇总数据层(DM)

汇总数据层是数据仓库的第三层,它从 DW 层中抽取数据,并进行汇总和分析。DM 层中的数据通常是按照分析需求进行汇总的数据,例如按照地区、时间等维度进行汇总。在 DM 层中,我们需要重点关注以下几个方面:

  • 数据汇总:按照分析需求对 DW 层中的数据进行汇总。
  • 数据挖掘:在 DM 层中进行数据挖掘和分析,发现数据中的规律和趋势。
  • 数据可视化:将 DM 层中的数据进行可视化处理,以便于决策者进行决策。

总结

优雅地设计数据分层 ODS DW DM层级是构建高效、高质量的数据仓库的关键之一。在设计过程中,我们需要关注数据的实时性、一致性、冗余、清洗、转换、整合、汇总和分析等方面,确保每一层的数据都能够满足其对应的需求。同时,我们还需要考虑如何优化数据的存储和访问方式,以提高数据处理效率和数据质量。

数据分层 ODS DW DM层级的更多相关文章

  1. 【漫谈数据仓库】 如何优雅地设计数据分层 ODS DW DM层级

    转载http://bigdata.51cto.com/art/201710/554810.htm 一.文章主题 本文主要讲解数据仓库的一个重要环节:如何设计数据分层!其它关于数据仓库的内容可参考之前的 ...

  2. 数据仓库分层ODS DW DM 主题 标签

    数据仓库知识之ODS/DW/DM - xingchaojun的专栏 - CSDN博客 数据仓库为什么要分层 - 晨柳溪 - 博客园 数据仓库的架构与设计 - Trigl的博客 - CSDN博客 数据仓 ...

  3. 对数据仓库ODS DW DM的理解

    原文链接:https://www.jianshu.com/p/72e395d8cb33 今天看了一些专业的解释,还是对ODS.DW和DM认识不深刻,下班后花时间分别查了查它们的概念. ODS——操作性 ...

  4. DW,DM,ODS的区别

    数据仓库的重要应用是将不同来源的数据和异构数据通过ETL整合在一起,为决策分析提供支撑,若在同一个数据库中分不同用户,此意义不大:假设所有有用户都在一个数据库里,如果因为某个原因数据库重启,那么会影响 ...

  5. 数据仓库DW、ODS、DM概念及其区别

    整体结构 在具体分析数据仓库之前先看下一下数据中心的整体架构以及数据流向   数据中心整体架构.png DB 是现有的数据来源,可以为mysql.SQLserver.文件日志等,为数据仓库提供数据来源 ...

  6. 数仓1.1 分层| ODS& DWD层

    数仓分层 ODS:Operation Data Store原始数据 DWD(数据清洗/DWI) data warehouse detail数据明细详情,去除空值,脏数据,超过极限范围的明细解析具体表 ...

  7. GIS案例学习笔记-CAD数据分层导入现有模板实例教程

    GIS案例学习笔记-CAD数据分层导入现有模板实例教程 联系方式:谢老师,135-4855-4328,xiexiaokui#qq.com 1. 原始数据: CAD数据 目标模板 2. 任务:分5个图层 ...

  8. hdfs冷热数据分层存储

    hdfs如何让某些数据查询快,某些数据查询慢? hdfs冷热数据分层存储 本质: 不同路径制定不同的存储策略. hdfs存储策略 hdfs的存储策略 依赖于底层的存储介质. hdfs支持的存储介质: ...

  9. ODS ,EDW,DM

    ODS: 操作数据存储ODS(Operational Data Store),操作型数据仓库,最早的数据仓库模型,是数据仓库体系结构中的一个可选部分,ODS具备数据仓库的部分特征和OLTP系统的部分特 ...

  10. 路径字符串数据转化为树型层级对象,path to json tree

    由于项目中使用了react 及 ant-design ,在使用tree树型控件时,需要 类似下面的数据, const treeData = [{ title: '0-0', key: '0-0', c ...

随机推荐

  1. トヨタ自動車プログラミングコンテスト2024#7(ABC 362)

    非常好名次,使我的 \(1\) 旋转 四发罚时应该是这次比赛最唐的东西了,没有就进前一千了 A.Buy a Pen 特判秒了,懒得打三种 ans=,所以就把不能选的那个赋值成无穷大了 #include ...

  2. USB总线-Linux内核USB设备驱动ftrace分析(十一)

    1.简介 USB Gadget Driver定义了很多trace event,使用者可以在用户空间通过ftrace接口,追踪USB Gadget Driver的行为. USB设备控制器驱动定义的tra ...

  3. 数据库运维实操优质文章分享(含Oracle、MySQL等) | 2023年6月刊

    本文为大家整理了墨天轮数据社区2023年6月发布的优质技术文章/文档,主题涵盖Oracle.MySQL.PostgreSQL等数据库的安装配置.故障处理.性能优化等日常实践操作,以及常用脚本.注意事项 ...

  4. 小程序的json文件

    json文件是页面的描述文件,对本页面的窗口外观设置,页面的配置可以覆盖全局的配置 (app.json);

  5. 14 Positional Encoding (为什么 Self-Attention 需要位置编码)

    博客配套视频链接: https://space.bilibili.com/383551518?spm_id_from=333.1007.0.0 b 站直接看 配套 github 链接:https:// ...

  6. python中模块的概念以及常用模块

    模块的概念:为了减少常用代码重复输入,同时方便多人协作,python中定义了模块一词. 模块是一些函数的集合.在python中可以使用import导入某一模块的单个或者所有功能. python中的模块 ...

  7. 为重复使用的HttpClient对象动态修改Timeout

    最近博客园被**了, 赶紧水一文支持一下博客园,加油! 问题现象 当HttpClient被使用过之后, 在修改它们的属性会抛出错误This instance has already started o ...

  8. OpenCv Mat 数据结构

    前言 OpenCv的Mat数据结构可以存储图片信息.但是以坐标系构建来说,Mat是以左上角为原点,而我们自己的日常习惯是以左下角为原点. 本文提供了这两者之间的一种转换. 假设 Mat : (x,y) ...

  9. python项目实战——人生重开模拟器

    文章目录 1.菜单栏的编写 2.玩家确定颜值.体质.智力.家境 3.生成性别 4.设定角色出生点 5.各个年龄段的变化 5.1 幼年阶段 5.2 青年阶段 5.3中年阶段 5.4 晚年阶段 6.整体代 ...

  10. 一些常用的jQuery方法1_20220128

    1.jQuery.merge()方法 $.merge() 函数用于合并两个数组内容到第一个数组.*$*.merge( first, second ) $(function () { var arr = ...