一、DW2.0从企业的角度,吸引企业的原因:

1.数据仓库基础设施的成本不再持续增长。在第一代数据仓库中,技术基础设施的成本是不断增长的,随着数据量的增长,基础设施的成本会以指数级增长。但是使用DW2.0,数据仓库的这一成本会趋于平稳。

2.使用元数据将基础设施结合在一起,这意味着数据不会轻易丢失。在第一代数据仓库中,一个数据单元或一个数据类型是很容易“丢失”的。这就像纽约市立图书馆书架上的一本书摆错了位置一样,一旦摆错位置,可能需要若干年才能将其放回容易被人们找到的位置。第一代数据仓库环境下的数据也是如此。而作为DW2.0骨干的元数据则不会令数据轻易丢失。

3.数据访问速度快。数据根据其访问概率放置,因此它的数据访问性能比第一代数据仓库环境更为有效

4.存档需求的关注。第一代数据仓库中很少有甚至没有存档数据,因此数据只能存储相对较短的一段时间。而在DW2.0环境下,数据时被存档的,这样它就能够永久保存下去,或者视需要而定。

5.数据仓库吸引大量的数据。DW2.0中数据是分段的,终端用户需要处理的数据量就会少得多。

二、 DW2.0与第一代数据仓库的区别:

1.dw2.0产生了对数据生命周期的认识

2.数据仓库中包含非结构化数据

3.dw2.0环境包含元数据

4.dw2.0的技术基础能够随着时间而变化

三、DW2.0数据生命周期

数据的生命周期:

第一代数据仓库:将数据存放在某种形式的磁盘存储器

第二代数据仓库:四个数据生命周期“分区”(如上图所示,可知DW2.0的数据结构)

交互区:数据存入数据仓库后迅速进入交互区。随着数据的调整,数据被整合后传递到整合区

整合区:整合的数据时在整合区被发现的,并且一直位于整合区,直至其访问概率下降。数据的访问概率往往会伴随着存储时间的增加而下降。通常情况下,3-4年后,整合区数据的访问概率会明显下降。

近线区:在许多方面,近线区就像是整合区的延伸。近线区是可以选择的,亦即数据不一定需要经过这一区,但是当数据量非常大并且数据间的访问概率差别很大时,就可以利用近线区来处理。

归档区:数据访问概率很低,数据可以从近线区也可以从整合区进入归档区。归档区的数据通常是5-10年,甚至更长。

DW2.0设置不同区的原因:

不同区之间区别的核心问题是:数据从一个区传递到另一个区时,数据的基本操作参数随之改变。

在区与区之间,数据的访问概率和访问模式差别很大。

交互区的数据被频繁访问,并且其访问模式是随机访问。

整合区数据的被访问概率也很高,但通常是顺序、成串的访问。

近线区的数据访问概率相对较低,并且在访问时是随机的。

归档区的数据很少被访问,它能够被顺序地、不定期地、随机地访问。

除了不同的访问模式外,不同的区在数据量上也有很明显的差别。交互区的数据量相对较小。整合区的数据较多。如果一个企业中完全是近线数据,那么近线区通常会有相当大数量的数据。归档区的数据也可能显著增长,即使最初几年收集的归档数据相对较少,但随着时间的推移,大量数据完全有可能聚集到归档区。

四、DW2.0 元数据

对于交互数据,元数据分开存储;对于归档数据,元数据与数据一起存储。

五、DW2.0非结构化数据

一般存在两种类型的数据:结构化数据和非结构化数据。

结构化数据:相同的格式和布局,存储在数据库记录中,记录中包含属性、键、索引、表格等。

非结构化数据:有两种基本形式---文本的和非文本的。

文本的非结构化数据出现在很多地方---电子邮件、电话交谈、幻灯片演示等。非文本的非结构化数据出现在诸如图形和图像里,包含不仅照片、X射线、核磁共振、图片、插图等等。

筛选“废话”仅仅是为DW2.0环境准备非结构化数据需要做的众多步骤中的第一步。

为DW2.0环境准备非格式化数据的第二个主要步骤是读取特定数据,并对特定数据添加一般数据,使得数据适合分析。做不到这点就是对时间和机会的浪费。

DW2.0的更多相关文章

  1. 转:DataSet、DataTable、DataRow、DataColumn区别及使用实例

    DataSet 表示数据在内存中的缓存. 属性 Tables  获取包含在 DataSet 中的表的集合. ds.Tables["sjxx"] DataTable 表示内存中数据的 ...

  2. DataSet、DataTable、DataRow、DataColumn区别及使用实例

    DataSet 表示数据在内存中的缓存. 属性 Tables  获取包含在 DataSet 中的表的集合. ds.Tables["sjxx"] DataTable 表示内存中数据的 ...

  3. 吴恩达课后作业学习1-week3-homework-one-hidden-layer

    参考:https://blog.csdn.net/u013733326/article/details/79702148 希望大家直接到上面的网址去查看代码,下面是本人的笔记 建立一个带有隐藏层的神经 ...

  4. 吴恩达课后作业学习2-week2-优化算法

    参考:https://blog.csdn.net/u013733326/article/details/79907419 希望大家直接到上面的网址去查看代码,下面是本人的笔记 我们需要做以下几件事:  ...

  5. Coursera Deep Learning 2 Improving Deep Neural Networks: Hyperparameter tuning, Regularization and Optimization - week2, Assignment(Optimization Methods)

    声明:所有内容来自coursera,作为个人学习笔记记录在这里. 请不要ctrl+c/ctrl+v作业. Optimization Methods Until now, you've always u ...

  6. Coursera Deep Learning 2 Improving Deep Neural Networks: Hyperparameter tuning, Regularization and Optimization - week1, Assignment(Regularization)

    声明:所有内容来自coursera,作为个人学习笔记记录在这里. Regularization Welcome to the second assignment of this week. Deep ...

  7. Neural Networks and Deep Learning(week3)Planar data classification with one hidden layer(基于单隐藏层神经网络的平面数据分类)

    Planar data classification with one hidden layer 你会学习到如何: 用单隐层实现一个二分类神经网络 使用一个非线性激励函数,如 tanh 计算交叉熵的损 ...

  8. [转]内存分配malloc, new , heapalloc

    malloc,new,VirtualAlloc,HeapAlloc性能(速度)比较 http://www.cppblog.com/woaidongmao/archive/2011/08/12/1531 ...

  9. 课程二(Improving Deep Neural Networks: Hyperparameter tuning, Regularization and Optimization),第二周(Optimization algorithms) —— 2.Programming assignments:Optimization

    Optimization Welcome to the optimization's programming assignment of the hyper-parameters tuning spe ...

随机推荐

  1. 【linux】文档查看

    cat: [root@localhost test]# cat log2013.log 2013-01 2013-02 2013-03 [root@localhost test]# cat -n lo ...

  2. [转]无网络环境,在Windows Server 2008 R2和SQL Server 2008R2环境安装SharePoint2013 RT

    无网络环境,在Windows Server 2008 R2和SQL Server 2008R2环境安装SharePoint2013 RT,这个还有点麻烦,所以记录一下,下次遇到省得绕弯路.进入正题: ...

  3. VB中上传下载文件到SQL数据库

    VB中上传下载文件到SQL数据库 编写人:左丘文 2015-4-11 近期在修改一个VB编写的系统时,想给画面增加一个上传文件到数据库,并可以下载查看的功能,今天在这里,我想与大家一起分享代码,在此做 ...

  4. emacs之配置5,窗口位置和大小

    emacsConfig/window-setting.el ;设置窗口位置 ( ) ;设置宽和高 () (if (eq system-type 'darwin) ()) (if (eq system- ...

  5. Lifecycle of an ASP.NET Web API Message

    ASP.NET Web API, as we know now, is a framework that helps build Services over HTTP. Web API was int ...

  6. python爬搜狗微信获取指定微信公众号的文章

    前言: 之前收藏了一个叫微信公众号的文章爬取,里面用到的模块不错.然而 偏偏报错= =.果断自己写了一个 正文: 第一步爬取搜狗微信搜到的公众号: http://weixin.sogou.com/we ...

  7. uedit富文本编辑器及图片上传控件

    微力后台 uedit富文本编辑器及文件上传控件的使用,无时间整理,暂略,参考本地代码.能跑起来.

  8. 「小程序JAVA实战」小程序视频展示页开发(52)

    转自:https://idig8.com/2018/09/22/xiaochengxujavashizhanxiaochengxushipinzhanshiyekaifa51/ 这次说下,小程序的视频 ...

  9. 跟我学算法-PCA(降维)基本原理推导

    Pca首先 1.对数据进行去均值 2.构造一个基本的协方差矩阵1/m(X)*X^T 3对协方差矩阵进行变化,得到对角化矩阵,即对角化上有数值,其他位置上的数为0(协方差为0),即求特征值和特征向量的过 ...

  10. _kbhit() for linux

    传送门:http://cboard.cprogramming.com/c-programming/63166-kbhit-linux.html #include <stdio.h> #in ...