数据仓库之Data Vault模型总结
一,Data Vault模型有几个主要的组件,这里先总结一下:
1.Hub组件,是一个数据表,用于记录在业务应用中常用到的业务实体键值,如员工ID,发票号、客户编号、车辆号等。
表内包括几个关键字段:代理主键(Surrorgate Key),即hub表的主键;业务实体主键(Business Key),记录业务键值;装载时间(Load Data/Time Stamp),记录该业务键值的记录时间;数据源(Record Source),记录该业务键值的来源,以追踪数据。
2.Link组件,通过存储相关业务实体间Hub表的SK(Surrorgate Key),以记录一对多、多对多的业务实体间关系,如员工与企业的雇佣关系,账户与客户之间的关系等。
包括以下几个关键字段:代理主键(Surrorgate Key),即Link表的主键;Hub1 SK…Hubn SK,与此Link相关的Hub表SK,记录业务关系;装载时间(Load Data/Time Stamp),记录该业务关系的记录时间;数据源(Record Source),记录该业务关系的来源,以追踪数据。
3.Satellite组件,Hub表中业务主键所对应的业务描述,即业务实体的属性信息,这些信息具有时效性,随时间变化而可能产生变化,因此,Satellite组件内的记录均具有时间维,可记录实体属性的历史变化情况。根据实体属性变化频率的不同,可将一类实体的业务属性分为若干Satellite表,通过向Satellite分表追加记录,以实现在更小粒度下,实现第二类渐变维的保存历史数据特性。
Satellite组件包括以下关键字段:代理主键(Surrorgate Key),即Satellite组件表的主键;Hub或Link表的主键,Satellite联合主键之一,记录该Satellite组件所属Hub或Link;装载时间(Load Data/Time Stamp),Satellite联合主键之一,记录该描述信息在数仓中的有效时间;数据源(Record Source),记录该描述信息的来源,以追踪数据。
4.Point-In-Time辅助表,用于同一Hub的多个Satellite组件间的时间同步。因为同一业务实体的不同类型属性的更新频率不同,因此同一Hub的多个Satellite组件基本不会同步更新,因此,只需要在PIT表中记录在同一时点同时有效的Satellite组件描述信息即可,以保证查询到的数据是查询时点的实体状态。通过PIT表中的记录,可以清晰的分析业务实体属性的变化频率及频率差异。
客户姓名和地址之间的变化情况
PIT表用于解决多Satellite组件统一时点的问题,如果只有一个Satellite组件则不需要PIT表。
二,Data Vault与星型模型比较
1.星型模型容易产生数据孤立,不同主题间的数据不容易产生联系,而且一旦模型确定,想要追加维度,涉及的调整范围较大,灵活性不足;而Data Vault继承了3NF的优点,可以从整体上描述企业的业务数据或信息结构,而且能够实现数据模型的动态架构。
2.Hub组件与星型模型中的维度表非常相似:记录了业务实体的维度信息的键值,但其它描述信息记录在了Satellite组件中。
3.Link组件与星型模型中的事实表非常相似,只是没有度量数据,因此可在原有Link组件的基础上,追加度量数据,以记录事实数据。
=》
4.Satellite组件的设计可以解决星型模型中多事实冗余的问题,由于Link本身具有多维的特性,因此通过在Link上追加度量信息的方式也同步解决了多维事实数据的问题。在向Link追加度量信息时,如果事实数据类型很多时,可以将度量信息按更新频度或类型进行分类,然后分别存储在多个Satellite组件中,以降低由于更新频度不同等原因导致的事实数据冗余。方法是为Link表增加一个Link组件,用于存储不同度量类型的主键关系,然后为建立对应的Satellite组件,以记录事实数据。
5.由于hub和link的设计,可以使Data Vault模型的数据仓库具有很好的扩展性,追加Hub和Link非常方便,也不用考虑粒度问题;Link的优势在于每个Link都是追加在Link组件中的或者是增加一个新的Link来记录新的关联关系,而不需要更新Link的数据结构,这样他的扩展性和灵活性就非常强,这一点与星型模型具有很大的区别。
6.理论上来说,Data Vault模型通过使用Satellite组件,减少了事实表的数据冗余(通过考虑不同变化率的数据而分别存储),大大降低了存储的数据量,能够提升查询性能,但因为Data Vault模型根据3NF对表进行了理细粒度的拆分,使查询过程增加了连接操作,这方面的影响需要验证,是否能够突破理论,实现真实的性能提升,本人再起无法评论,需要实际应用的检验。
三,一些设计原则:
关于Hub:
1.Hub之间不能直接通过外键进行关联,而必须通过Link联接,以保证模型的灵活性和扩展性;
2.两个或两个以上的Hub都可以通过Link相联;
3.Hub的键会出现在其它组件中(Link和Satellite)中,否则Hub数据将被孤立。
关于Link:
1.Link可以与其他Link相联;
2.Hub主键固定,而不会发生变化;
关于Satellite:
1.Satellite必须存在关联的Hub或Link才有意义,否则无效;
2.Satellite问题包含装载时间,以记录历史数据,且没有重复数据;
3.可根据更新频率拆分Satellite;
Data Vault模型是由业务键(Hub)、业务关系(Link)、业务描述(Satellite)组成的
---------------------
作者:junweishiwo
来源:CSDN
原文:https://blog.csdn.net/junweishiwo/article/details/82838407
版权声明:本文为博主原创文章,转载请附上博文链接!
数据仓库之Data Vault模型总结的更多相关文章
- Data Vault玩转数据仓库(三)
在Data Vault 2.0版本里,其不只是针对数据仓库的建模,同时也包含了架构,方法论以及实现.这篇挑几个概念,附上我个人对其的理解.同时也把这个系列的名字改成<Data Vault玩转数据 ...
- 利用Data vault对数据仓库建模
简介 国内关于Data Vault的信息很少,所以决定写点什么,纯粹都是自己在这个行业10多年的摸爬滚打.不过为了效率,尽量做到简短,直接上干货.对于各个细节大家有不同的理解欢迎来讨论. 数据仓库建模 ...
- 利用Data Vault对数据仓库进行建模(二)
写在前面 本篇先不讨论Data Vault其本身,因为不见得所有人都接受这个.但是里边有一些很不错的东西跟主流的数据仓库方法是有共同点的,所以这里主要讨论这些共同的方法,在笔者看来,无论是Kimbal ...
- Data Vault 简介
Data Vault 简介 Data Vault 2.0 不仅是建模技术,也提供了一整套数据仓库项目的方法论.它能提供一套非常可行的方案来满足数据仓库项目中对于历史轨迹和审核两个方面的需求. 多年来, ...
- 胖子哥的大数据之路(9)-数据仓库金融行业数据逻辑模型FS-LDM
引言: 大数据不是海市蜃楼,万丈高楼平地起只是意淫,大数据发展还要从点滴做起,基于大数据构建国家级.行业级数据中心的项目会越来越多,大数据只是技术,而非解决方案,同样面临数据组织模式,数据逻辑模式的问 ...
- Cross-Domain Security For Data Vault
Cross-domain security for data vault is described. At least one database is accessible from a plural ...
- BI 底座——数据仓库技术(Data Warehouse)
在开始喷这个主题之前,让我们先看看数据仓库的官方定义: 数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented).集成的(Integrate).相对稳定的(Non- ...
- [目录]Pentaho Kettle解决方案:使用PDI构建开源ETL解决方案
第一部分:开始 1 ETL入门 1.1 OLTP和数据仓库对比 1.2 ETL是什么 1.2.1 ETL解决方案的演化过程 1.2.2 ET ...
- Hive 建模
date: 2020-05-24 17:55:00 updated: 2020-06-15 11:19:00 Hive 建模 1. 存储格式 textFile sequenceFile:一种Hadoo ...
随机推荐
- 【Spring-Controller 整理研究】@RequestMapping略解
本文以纯后端的角度,去研究Spring Controller在各种情况的行为,及各种属性的作用. 实验准备 利用https://start.spring.io/快速生成一个开箱即用的小巧spring ...
- flutter-fluro
路由传参 route.dart import 'package:fluro/fluro.dart'; //添加页面 import 'package:m/pages/loginPage.dart'; i ...
- Java第一、二次实训作业
1.有1.2.3.4共4个数字,能组成多少个互不相同且无重复数字的三位数?都是多少? 程序分析:可填在百位.十位.个位的数字都是1.2.3.4.组成所有的排列后再去掉不满足条件的排列. 代码 pack ...
- @Override报错的处理
有时候我们从SVN导的项目,jre和jar包都没问题,但是就会出如下图的错误: xi 点击红叉,显示错误信息如下: 点击工具里面的window-->preferences-->java-- ...
- Git 与 GitHub 简介
Git 与 GitHub 的来历 Linux 之父 Linus 在 1991 年创建开源的 Linux 操作系统之后,多年来依靠全世界广大热心志愿者的共同建设,经过长足发展,现已成为世界上最大的服务器 ...
- 启动一个SpringBoot的maven项目
最近拿到了一个maven项目,原先是使用.net开发的,虽然Java和C#的语法相近,但是难免还有一些差别,包括语言特性,IDE的使用方面,都需要一段时间的习惯和适应. 该项目总体上是前后端分 ...
- 如何在 Apache 里修改 PHP 配置
当使用 PHP 作为 Apache 模块时,也可以使用 Apache 配置文件(例如:httpd.conf) 和 .htaccess 文件中的指令来修改 PHP 的配置 设定,不过需要有 " ...
- jmeter接口自动化测试
一.正常单个接口 1.自定义变量设置服务器地址ip和端口 2.可以正则表达式提取取出token值设置为请求头里 如图 二.接口请求参数涉及取参(单个或多值) 提取多个值参数,用Json提取器可以直接提 ...
- jsp 遍历集合——关于获取集合的长度
一,关于获取集合长度问题 在jsp页面中不能通过${list.size}取列表长度,而是 EL表达式不能获取集合的长度 如:${list.size} <%@ taglib uri="h ...
- xshell 使用root 连接ubuntu server
下载一个虚拟机,安装Ubuntu server 下载一个xshell 第一步 :先使用账号登录 第二步:给root设置初始密码 sudo passwd root 第三步:切换root 账户,使用vi ...