DW2.0

一、DW2.0从企业的角度，吸引企业的原因：

1.数据仓库基础设施的成本不再持续增长。在第一代数据仓库中，技术基础设施的成本是不断增长的，随着数据量的增长，基础设施的成本会以指数级增长。但是使用DW2.0，数据仓库的这一成本会趋于平稳。

2.使用元数据将基础设施结合在一起，这意味着数据不会轻易丢失。在第一代数据仓库中，一个数据单元或一个数据类型是很容易“丢失”的。这就像纽约市立图书馆书架上的一本书摆错了位置一样，一旦摆错位置，可能需要若干年才能将其放回容易被人们找到的位置。第一代数据仓库环境下的数据也是如此。而作为DW2.0骨干的元数据则不会令数据轻易丢失。

3.数据访问速度快。数据根据其访问概率放置，因此它的数据访问性能比第一代数据仓库环境更为有效

4.存档需求的关注。第一代数据仓库中很少有甚至没有存档数据，因此数据只能存储相对较短的一段时间。而在DW2.0环境下，数据时被存档的，这样它就能够永久保存下去，或者视需要而定。

5.数据仓库吸引大量的数据。DW2.0中数据是分段的，终端用户需要处理的数据量就会少得多。

二、 DW2.0与第一代数据仓库的区别：

1.dw2.0产生了对数据生命周期的认识

2.数据仓库中包含非结构化数据

3.dw2.0环境包含元数据

4.dw2.0的技术基础能够随着时间而变化

三、DW2.0数据生命周期

数据的生命周期：

第一代数据仓库：将数据存放在某种形式的磁盘存储器

第二代数据仓库：四个数据生命周期“分区”（如上图所示，可知DW2.0的数据结构）

交互区：数据存入数据仓库后迅速进入交互区。随着数据的调整，数据被整合后传递到整合区

整合区：整合的数据时在整合区被发现的，并且一直位于整合区，直至其访问概率下降。数据的访问概率往往会伴随着存储时间的增加而下降。通常情况下，3-4年后，整合区数据的访问概率会明显下降。

近线区：在许多方面，近线区就像是整合区的延伸。近线区是可以选择的，亦即数据不一定需要经过这一区，但是当数据量非常大并且数据间的访问概率差别很大时，就可以利用近线区来处理。

归档区：数据访问概率很低，数据可以从近线区也可以从整合区进入归档区。归档区的数据通常是5-10年，甚至更长。

DW2.0设置不同区的原因：

不同区之间区别的核心问题是：数据从一个区传递到另一个区时，数据的基本操作参数随之改变。

在区与区之间，数据的访问概率和访问模式差别很大。

交互区的数据被频繁访问，并且其访问模式是随机访问。

整合区数据的被访问概率也很高，但通常是顺序、成串的访问。

近线区的数据访问概率相对较低，并且在访问时是随机的。

归档区的数据很少被访问，它能够被顺序地、不定期地、随机地访问。

除了不同的访问模式外，不同的区在数据量上也有很明显的差别。交互区的数据量相对较小。整合区的数据较多。如果一个企业中完全是近线数据，那么近线区通常会有相当大数量的数据。归档区的数据也可能显著增长，即使最初几年收集的归档数据相对较少，但随着时间的推移，大量数据完全有可能聚集到归档区。

四、DW2.0 元数据

对于交互数据，元数据分开存储；对于归档数据，元数据与数据一起存储。

五、DW2.0非结构化数据

一般存在两种类型的数据：结构化数据和非结构化数据。

结构化数据：相同的格式和布局，存储在数据库记录中，记录中包含属性、键、索引、表格等。

非结构化数据：有两种基本形式---文本的和非文本的。

文本的非结构化数据出现在很多地方---电子邮件、电话交谈、幻灯片演示等。非文本的非结构化数据出现在诸如图形和图像里，包含不仅照片、X射线、核磁共振、图片、插图等等。

筛选“废话”仅仅是为DW2.0环境准备非结构化数据需要做的众多步骤中的第一步。

为DW2.0环境准备非格式化数据的第二个主要步骤是读取特定数据，并对特定数据添加一般数据，使得数据适合分析。做不到这点就是对时间和机会的浪费。

DW2.0的更多相关文章

转：DataSet、DataTable、DataRow、DataColumn区别及使用实例
DataSet 表示数据在内存中的缓存. 属性 Tables 获取包含在 DataSet 中的表的集合. ds.Tables["sjxx"] DataTable 表示内存中数据的 ...
DataSet、DataTable、DataRow、DataColumn区别及使用实例
DataSet 表示数据在内存中的缓存. 属性 Tables 获取包含在 DataSet 中的表的集合. ds.Tables["sjxx"] DataTable 表示内存中数据的 ...
吴恩达课后作业学习1-week3-homework-one-hidden-layer
参考:https://blog.csdn.net/u013733326/article/details/79702148 希望大家直接到上面的网址去查看代码,下面是本人的笔记建立一个带有隐藏层的神经 ...
吴恩达课后作业学习2-week2-优化算法
参考:https://blog.csdn.net/u013733326/article/details/79907419 希望大家直接到上面的网址去查看代码,下面是本人的笔记我们需要做以下几件事: ...
Coursera Deep Learning 2 Improving Deep Neural Networks: Hyperparameter tuning, Regularization and Optimization - week2, Assignment(Optimization Methods)
声明:所有内容来自coursera,作为个人学习笔记记录在这里. 请不要ctrl+c/ctrl+v作业. Optimization Methods Until now, you've always u ...
Coursera Deep Learning 2 Improving Deep Neural Networks: Hyperparameter tuning, Regularization and Optimization - week1, Assignment(Regularization)
声明:所有内容来自coursera,作为个人学习笔记记录在这里. Regularization Welcome to the second assignment of this week. Deep ...
Neural Networks and Deep Learning（week3）Planar data classification with one hidden layer(基于单隐藏层神经网络的平面数据分类)
Planar data classification with one hidden layer 你会学习到如何: 用单隐层实现一个二分类神经网络使用一个非线性激励函数,如 tanh 计算交叉熵的损 ...
[转]内存分配malloc, new , heapalloc
malloc,new,VirtualAlloc,HeapAlloc性能(速度)比较 http://www.cppblog.com/woaidongmao/archive/2011/08/12/1531 ...
课程二(Improving Deep Neural Networks: Hyperparameter tuning, Regularization and Optimization)，第二周（Optimization algorithms） —— 2.Programming assignments:Optimization
Optimization Welcome to the optimization's programming assignment of the hyper-parameters tuning spe ...

随机推荐

安装memcached服务和 php 安装memcache扩展
这是所有的命令,至于哪个命令是干嘛的自己悟去吧 ,顺便穿插一些知识点安装libevent cd /home/ wget http://www.monkey.org/~provos/libeven ...
学习笔记之SQL 教程
SQL 教程 | 菜鸟教程 http://www.runoob.com/sql/sql-tutorial.html SQL,指结构化查询语言,全称是 Structured Query Language ...
Fri Oct 31 18:00:00 UTC+0800 2008转换为yyyy-mm-dd
这个其实网上有很多例子,都是直接用js在前端做了时间处理,我的处理也一样,想要变成2008-3-31,就用下面的js直接可以处理 function Todate(num) { //Fri Oct 31 ...
交叉编译OpenCV的Android版本
交叉编译OpenCV的Android版本 OpenCV作为一个强大的图像处理库,在Android上也有强大的应用. OpenCV官网提供了SDK的下载,可以直接下载使用 OpenCV官网地址:http ...
使用Javamail发送邮件Util
maven: <dependency> <groupId>javax.mail</groupId> <artifactId>mail</artif ...
好记性不如烂笔头-linux学习笔记6keepalived实现主备操作
Keepalived的作用是检测服务器的状态,如果有一台web服务器宕机,或工作出现故障,Keepalived将检测到,并将有故障的服务器从系统中剔除,同时使用其他服务器代替该服务器的工作,当服务器工 ...
Spring Boot日志集成
Spring Boot日志框架 Spring Boot支持Java Util Logging,Log4j2,Lockback作为日志框架,如果你使用starters启动器,Spring Boot将使用 ...
ETL 脚本任务
Public Sub Main() ' ' Add your code here ' Dim sbWA As New StringBuilder ...
ie11的仿真模式
1>在ie11的仿真模式中,所有版本的按钮都失效,解决方法:再ie的配置中,选项-高级-重置,然后重启ie11 程序员的基础教程:菜鸟程序员
socket收发消息
.socket通讯类 using System; using System.Collections.Generic; using System.Net; using System.Net.Socket ...

DW2.0

DW2.0的更多相关文章

随机推荐

热门专题