数据仓库分层中的ODS、DWD、DWS

1.数据仓库DW

1.1简介

Data warehouse（可简写为DW或者DWH）数据仓库，是在数据库已经大量存在的情况下，为了进一步挖掘数据资源、为了决策需要而产生的，它是一整套包括了etl、调度、建模在内的完整的理论体系。数据仓库的方案建设的目的，是为前端查询和分析作为基础，主要应用于OLAP（on-line Analytical Processing），支持复杂的分析操作，侧重决策支持，听且提供直观易懂的查询结果。比较流行的有：AWS Redshift，Greenplum，Hive等。

1.2主要特点

面向主题：
- 操作型数据库组织面向事务处理任务，而数据仓库中的数据是按照一定的主题域进行组织。
- 主题是指用户使用数据仓库进行决策时所关心的重点方面，一个主题通过与多个操作型信息系统相关。
集成
- 需要对源数据进行加工与融合，统一与综合
- 在加工的过程中必须消除源数据的不一致性，以保证数据仓库内的信息时关于整个企业的一致的全局信息。（关联关系）
不可修改
- DW中的数据并不是最新的，而是来源于其他数据源
- 数据仓库主要是为决策分析提供数据，涉及的操作主要是数据的查询
与时间相关
- 处于决策的需要数据仓库中的数据都需要标明时间属性

1.3与数据库的对比

DW：专门为数据分析设计的，涉及读取大量数据以了解数据之间的关系和趋势
数据库：用于捕获和存储数据

特性	数据仓库	事务数据库
适合的工作负载	分析、报告、大数据	事务处理
数据源	从多个来源收集和标准化的数据	从单个来源（例如事务系统）捕获的数据
数据捕获	批量写入操作通过按照预定的批处理计划执行	针对连续写入操作进行了优化，因为新数据能够最大程度地提高事务吞吐量
数据标准化	非标准化schema，例如星型Schema或雪花型schema	高度标准化的静态schema
数据存储	使用列式存储进行了优化，可实现轻松访问和高速查询性能	针对在单行型物理块中执行高吞吐量写入操作进行了优化
数据访问	为最小化I/O并最大化数据吞吐量进行了优化	大量小型读取操作

2.数据分层

数据分层，每个企业根据自己的业务需求可以分成不同的层次，但是最基础的分层思想，理论上数据分为三个层：数据运营层、数据仓库层、数据服务层。基于这个基础分层之上，再提交信息的层次，来满足不同的业务需求。

2.1数据运营层（ODS）

ODS：Operation Data Store 数据准备区，也称为贴源层。数据仓库源头系统的数据表通常会原封不动的存储一份，这称为ODS层，是后续数据仓库加工数据的来源。
ODS层数据的来源方式：
- 业务库
  - 经常会使用sqoop来抽取，例如每天定时抽取一次。
  - 实时方面，可以考虑用canal监听mysql的binlog，实时接入即可。
- 埋点日志
  - 日志一般以文件的形式保存，可以选择用flume定时同步
  - 可以用spark streaming或者Flink来实时接入
  - kafka也OK
- 消息队列：即来自ActiveMQ、Kafka的数据等。

2.2数据仓库层（DW）

DW数据分层，由下到上为DWD，DWB，DWS。

DWD：data warehouse details 细节数据层，是业务层与数据仓库的隔离层。主要对ODS数据层做一些数据清洗和规范化的操作。
- 数据清洗：去除空值、脏数据、超过极限范围的
DWB：data warehouse base 数据基础层，存储的是客观数据，一般用作中间层，可以认为是大量指标的数据层。
DWS：data warehouse service 数据服务层，基于DWB上的基础数据，整合汇总成分析某一个主题域的服务数据层，一般是宽表。用于提供后续的业务查询，OLAP分析，数据分发等。
- 用户行为，轻度聚合
- 主要对ODS/DWD层数据做一些轻度的汇总。

2.3数据服务层/应用层（ADS）

ADS：applicationData Service应用数据服务，该层主要是提供数据产品和数据分析使用的数据，一般会存储在ES、mysql等系统中供线上系统使用。
- 我们通过说的报表数据，或者说那种大宽表，一般就放在这里

3.附录

ETL

ETL ：Extract-Transform-Load，用于描述将数据从来源端经过抽取、转换、加载到目的端的过程。

宽表

含义：指字段比较多的数据库表。通常是指业务主体相关的指标、纬度、属性关联在一起的一张数据库表。
特点：
- 宽表由于把不同的内容都放在同一张表，宽表已经不符合三范式的模型设计规范：
  - 坏处：数据有大量冗余
  - 好处：查询性能的提高和便捷
- 宽表的设计广泛应用于数据挖掘模型训练前的数据准备，通过把相关字段放在同一张表中，可以大大提供数据挖掘模型训练过程中迭代计算的消息问题。

数据库设计三范式

为了建立冗余较小、结构合理的数据库，设计数据库时必须遵循一定的规则。在关系型数据库中这种规则就称为范式。范式时符合某一种设计要求的总结。

第一范式：确保每列保持原子性，即要求数据库表中的所有字段值都是不可分解的原子值。
第二范式：确保表中的每列都和主键相关。也就是说在一个数据库表中，一个表中只能保存一种数据，不可以把多种数据保存在同一张数据库表中。
1. 作用：减少了数据库的冗余
第三范式：确保每列都和主键列直接相关，而不是间接相关。

数据仓库分层中的ODS、DWD、DWS的更多相关文章

数据仓库和数据集市：ODS、DW、DWD、DWM、DWS、ADS
@ 目录数据流向何为数仓DW 主要特点与数据库的对比为何要分层数据分层数据运营层ODS 数据仓库层数据细节层DWD 数据中间层DWM 数据服务层DWS(DWT) 数据应用层ADS 事实表 ...
数仓1.1 分层| ODS& DWD层
数仓分层 ODS:Operation Data Store原始数据 DWD(数据清洗/DWI) data warehouse detail数据明细详情,去除空值,脏数据,超过极限范围的明细解析具体表 ...
数据仓库分层ODS DW DM 主题标签
数据仓库知识之ODS/DW/DM - xingchaojun的专栏 - CSDN博客数据仓库为什么要分层 - 晨柳溪 - 博客园数据仓库的架构与设计 - Trigl的博客 - CSDN博客数据仓 ...
大数据系列之数据仓库Hive中分区Partition如何使用
Hive系列博文,持续更新~~~ 大数据系列之数据仓库Hive原理大数据系列之数据仓库Hive安装大数据系列之数据仓库Hive中分区Partition如何使用大数据系列之数据仓库Hive命令使用 ...
Flume在企业大数据仓库架构中位置及功能
Flume在企业大数据仓库架构中位置及功能 hadoop 数据仓库 flume 数据仓库架构 1.如下图所示,外部数据中,关系型数据库导入到HDFS用sqoop,由Nginx产生的文件实时监控用Flu ...
高速查询hive数据仓库表中的总条数
Author: kwu 高速查询hive数据仓库中的条数.在查询hive表的条数,通常使用count(*).可是数据量大的时候,mr跑count(*)往往须要几分钟的时间. 1.传统方式获得总条数例如 ...
UI分层中使用PageFactory
基于原PO设计模式,需要改变原有的从文件中读取文件,更改为PageFactory模式.做出如下改动: 1 2 public MsysPage(DriverBase driver) { super(dr ...
RIP OSPF 等路由协议属于计算机网络分层中的哪一层
RIP基于UDP,BGP基于TCP,OSPF EGP基于IP 在TCP/IP协议栈中定义的路由协议用于发现和维护前往目的地的最短路径.可以认为它们不属于网络层协议(注意,是用based on,而不是实 ...
【漫谈数据仓库】如何优雅地设计数据分层 ODS DW DM层级
转载http://bigdata.51cto.com/art/201710/554810.htm 一.文章主题本文主要讲解数据仓库的一个重要环节:如何设计数据分层!其它关于数据仓库的内容可参考之前的 ...

随机推荐

OO_JAVA_电梯运行模拟_单元总结
电梯运行模拟--三次作业总结目录电梯运行模拟--三次作业总结总体遵循的设计思路逻辑解耦电梯与调度器解耦楼层信息的存储和变更与电梯.调度器解耦调度器运行流程解耦第一次电梯,蠢笨串行先到先 ...
GEOS使用记录
由于需要计算GIS障碍物的缓冲区,所以研究了一下GEOS库的使用,将使用的一些细节内容记录一下: 1.vs2010IDE无法编译较高版本的GEOS库,较高版本的库使用了更加高级的C++语法,如果想使 ...
Python爬取COVID-19疫情监控实战
一.项目概述本项目基于Python.Flask.Echarts打造的一个疫情监控系统,涉及技术: Python网络爬虫 Python与Mysql数据库交互使用Flask构建web项目基于Echa ...
MyBatis源码分析（一）：从JDBC到MyBatis 介绍MyBatis的背景，为什么要用MyBatis
一.介绍JDBC JDBC全称Java Database Connectivity,是Java语言规范客户端访问数据库的应用程序接口,所面向的数据库类型为关系型数据库. JDBC的三层架构图: JDB ...
这一次，解决Flutter Dialog的各种痛点！
前言 Q:你一生中闻过最臭的东西,是什么? A:我那早已腐烂的梦. 兄弟萌!!!我又来了! 这次,我能自信的对大家说:我终于给大家带了一个,能真正帮助大家解决诸多坑比场景的pub包! 将之前的flut ...
Laravel 中输出 SQL 语句的到 log 日志
在 AppServiceProvider.php 中的 boot 方法中添加如下代码即可 public function boot() { //数据库监听 DB::listen(function ( ...
Java 17 新功能介绍（LTS）
点赞再看,动力无限.Hello world : ) 微信搜「程序猿阿朗」. 本文 Github.com/niumoo/JavaNotes 和未读代码博客已经收录,有很多知识点和系列文章. Jav ...
C语言的“隐式函数声明”违背了 “前置声明” 原则
这个问题来源于小组交流群里的一个问题: 最终问题落脚在 : 一个函数在main中调用了,必须在main之前定义或者声明吗? 我在自己的Centos上做了实验,结果是函数不需要,但是结构体(变量也要)需 ...
RedHat 7.0 下 FTP 服务的安装，启动，配置，以及虚拟用户的建立
(注意! 区分shell命令和往配置文件里加的代码不同) 一:ftp服务的安装,启动和启用. 1:vim /etc/sysconfig/selinux 改为disabled后重启 ...
攻防世界 Misc 新手练习区 ext3 bugku Writeup
攻防世界 Misc 新手练习区 ext3 bugku Writeup 题目介绍题目考点 WinHex工具的使用 linux磁盘挂载mount命令 Writeup 下载附件拖进winhex分析一下,查 ...