混合 Data Warehouse 和 Big Data 倉庫的新架構
(讀書筆記)
許多公司,儘管想導入 Big Data,仍必須繼續用 Data Warehouse 來管理結構化的營運數據、系統記錄。而 Big Data 的出現,為 Data Warehouse 提供了一個互補的機會,而不是取代後者。
高度結構化的營運資料 (data,數據),仍然可保留在 Data Warehouse 中;而分散式 (distributed) 的資料,以及會即時改變的資料,則可交由基於 Hadoop 的架構來控制。

圖 1 傳統的 Data Warehouse 和 Data Mart 架構

圖 2 混合 Data Warehouse 和 Big Data 倉庫的新架構
一間公司的客戶、潛在使用者,在網路上和實體上的互動,這些大量產生的數據,傳統的 Data Warehouse 僅能跟蹤交易及營運數據,但卻不能跟蹤網路流量及相關資訊。為了儘可能多保留這些數據,與其建立一個 Data Warehouse 來儲存所有數據,不如用 Hadoop 分散式計算的方式,將數據存放在公司的伺服器上。這樣,公司就能將所有來自「網頁互動」的數據保存下來了。這些數據儲存在運行著 Hadoop 和 MapReduce 的伺服器叢集 (cluster) 中,配合使用 Flume 和 Sqoop 之類的工具,公司的資訊團隊,就能夠將數據從 Hadoop 裡遷移出來,匯入關聯式模型及資料庫中,讓大家用熟悉的傳統 SQL 工具來查詢。
這樣公司就能在發現某些客戶群,希望獲得某些新型態服務時,快速地轉變服務和產品。公司 (線上旅遊網站) 還能夠預測一些趨勢,像是如何適時地調整機票的價格。這些數據中,有一部分仍保留在 Hadoop 環境中,並能保持幾乎「即時」的更新;另有一些數據,經過處理後,已被轉移到了 Data Warehouse 中,這樣他們就可用於和歷史數據進行比對。既有的 Data Warehouse 繼續提供公司業務需要的內容,Hadoop 環境則可以跟蹤每分鐘都發生了什麼事。這種將系統記錄與 Data Warehouse 整合的動態大數據系統,能為公司提供巨大的商機,讓公司能在網路世界中,把即時產生的大量數據、分析結果,應用到公司的業務上。
----------------------------------------------
以上節錄自 Big Data For Dummies 簡體中譯本
Ch11, 設備和大數據倉庫
該書 260頁,圖多,內容偏重講原理、技術簡介、和企業既有應用的整合,幾乎沒程式碼 (適合老闆和主管看)
写给大家看的大数据(簡體中譯本):
http://www.m.sanmin.com.tw/Product/Index/004706578
ISBN13:9787115356130
ISBN: 9781118504222
混合 Data Warehouse 和 Big Data 倉庫的新架構的更多相关文章
- DataBase vs Data Warehouse
Database https://en.wikipedia.org/wiki/Database A database is an organized collection of data.[1] A ...
- Building the Unstructured Data Warehouse: Architecture, Analysis, and Design
Building the Unstructured Data Warehouse: Architecture, Analysis, and Design earn essential techniqu ...
- The Data Warehouse Toolkit 阅读笔记
前言 这篇笔记的主要内容来至于The Data Warehouse Toolkit,该书可以称为数仓建模的圣经 什么是星型模型 以一个业务实时为主表.比如一笔订单就是一个业务事实.订单有商品的SKU信 ...
- Azure SQL Data Warehouse
Azure SQL Data Warehouse & AWS Redshift Amazon Redshift Amazon Redshift 是一种快速.完全托管的 PB 级数据仓库,可方便 ...
- 场景4 Data Warehouse Management 数据仓库
场景4 Data Warehouse Management 数据仓库 parallel 4 100% —> 必须获得指定的4个并行度,如果获得的进程个数小于设置的并行度个数,则操作失败 para ...
- 浅析基于微软SQL Server 2012 Parallel Data Warehouse的大数据解决方案
作者 王枫发布于2014年2月19日 综述 随着越来越多的组织的数据从GB.TB级迈向PB级,标志着整个社会的信息化水平正在迈入新的时代 – 大数据时代.对海量数据的处理.分析能力,日益成为组织在这个 ...
- 转:浅析基于微软SQL Server 2012 Parallel Data Warehouse的大数据解决方案
综述 随着越来越多的组织的数据从GB.TB级迈向PB级,标志着整个社会的信息化水平正在迈入新的时代 – 大数据时代.对海量数据的处理.分析能力,日益成为组织在这个时代决胜未来的关键因素,而基于大数据的 ...
- Data Warehouse
Knowledge Discovery Process OLTP & OLAP 联机事务处理(OLTP, online transactional processing)系统:涵盖组织机构大部 ...
- data warehouse 1.0 vs 2.0
data warehouse 1.01. EDW goal, separate data marts reqlity2. batch oriented etl3. IT driven BI - das ...
随机推荐
- datatable 加序号列
最近使用datatable时,发现没有像jqgrid那样生成序号列,在国外网站搜罗了一下还是很简单的,就要在aoColumns中添加一空列占位就行,然后再用fnRowCallback添加序号 示例如下 ...
- 未能添加对***.dll的引用 问题解决方法
这个不是什么新问题了,这里说一下我遇到的这个操蛋事. 转载请注明出处 http://www.cnblogs.com/zaiyuzhong/p/6236263.html 我做的和往常一样,找到SDK开发 ...
- 队列的JS实现
队列和栈相似,都是对插入和删除操作的部位做了限制特殊的线性表.在队列中,只能从一头删除节点,这一头叫做队首:而另一端只能做插入操作,这一头叫做队尾.很容易理解,队列是一个"先进先出" ...
- AMD与CMD(转载)
JavaSript模块化 在了解AMD,CMD规范前,还是需要先来简单地了解下什么是模块化,模块化开发? 模块化是指在解决某一个复杂问题或者一系列的杂糅问题时,依照一种分类的思维把问题 ...
- spring3.0使用annotation完全代替XML(三)
很久之前写过两篇博客: spring3.0使用annotation完全代替XML spring3.0使用annotation完全代替XML(续) 用java config来代替XML,当时还遗留下一些 ...
- Spring AOP实例——异常处理和记录程序执行时间
实例简介: 这个实例主要用于在一个系统的所有方法执行过程中出线异常时,把异常信息都记录下来,另外记录每个方法的执行时间. 用两个业务逻辑来说明上述功能,这两个业务逻辑首先使用Spring AOP的自动 ...
- 关于 iframe 在ie11 height:100% 无效的巨坑
好的,今天公司分配了个解决ie中的bug的任务,其中,有一个就是iframe 的高度 100% 没有生效的问题: 一开始,由于我真的没有怎么去了解过iframe这个货,所以,网上各种搜索一大堆关于这货 ...
- 安装windows server 2012 r2 的那点事儿
windows server 2012 r2 安装无法找到install.wim 错误代码0x80070026,以及制作U启动盘决解ISO文件超过5G大小限制的解决方案 用UltaISO刻录后,sou ...
- nodejs 模块恩仇录
anywhere 一句话:随时随地将你的当前目录变成一个静态文件服务器的根目录. 安装 npm install anywhere -g anywhere -h localhost -p 8060 fa ...
- html websocket
from:http://www.ibm.com/developerworks/cn/web/1112_huangxa_websocket/ websocket 规范升级过,在该链接的文章内未提及,后面 ...