混合 Data Warehouse 和 Big Data 倉庫的新架構

(讀書筆記)
許多公司，儘管想導入 Big Data，仍必須繼續用 Data Warehouse 來管理結構化的營運數據、系統記錄。而 Big Data 的出現，為 Data Warehouse 提供了一個互補的機會，而不是取代後者。

高度結構化的營運資料 (data,數據)，仍然可保留在 Data Warehouse 中；而分散式 (distributed) 的資料，以及會即時改變的資料，則可交由基於 Hadoop 的架構來控制。

圖 1　傳統的 Data Warehouse 和 Data Mart 架構

圖 2　混合 Data Warehouse 和 Big Data 倉庫的新架構

一間公司的客戶、潛在使用者，在網路上和實體上的互動，這些大量產生的數據，傳統的 Data Warehouse 僅能跟蹤交易及營運數據，但卻不能跟蹤網路流量及相關資訊。為了儘可能多保留這些數據，與其建立一個 Data Warehouse 來儲存所有數據，不如用 Hadoop 分散式計算的方式，將數據存放在公司的伺服器上。這樣，公司就能將所有來自「網頁互動」的數據保存下來了。這些數據儲存在運行著 Hadoop 和 MapReduce 的伺服器叢集 (cluster) 中，配合使用 Flume 和 Sqoop 之類的工具，公司的資訊團隊，就能夠將數據從 Hadoop 裡遷移出來，匯入關聯式模型及資料庫中，讓大家用熟悉的傳統 SQL 工具來查詢。

這樣公司就能在發現某些客戶群，希望獲得某些新型態服務時，快速地轉變服務和產品。公司 (線上旅遊網站) 還能夠預測一些趨勢，像是如何適時地調整機票的價格。這些數據中，有一部分仍保留在 Hadoop 環境中，並能保持幾乎「即時」的更新；另有一些數據，經過處理後，已被轉移到了 Data Warehouse 中，這樣他們就可用於和歷史數據進行比對。既有的 Data Warehouse 繼續提供公司業務需要的內容，Hadoop 環境則可以跟蹤每分鐘都發生了什麼事。這種將系統記錄與 Data Warehouse 整合的動態大數據系統，能為公司提供巨大的商機，讓公司能在網路世界中，把即時產生的大量數據、分析結果，應用到公司的業務上。

----------------------------------------------
以上節錄自 Big Data For Dummies 簡體中譯本
Ch11, 設備和大數據倉庫

該書 260頁，圖多，內容偏重講原理、技術簡介、和企業既有應用的整合，幾乎沒程式碼 (適合老闆和主管看)

写给大家看的大数据（簡體中譯本）：
http://www.m.sanmin.com.tw/Product/Index/004706578
ISBN13：9787115356130
ISBN: 9781118504222

混合 Data Warehouse 和 Big Data 倉庫的新架構的更多相关文章

DataBase vs Data Warehouse
Database https://en.wikipedia.org/wiki/Database A database is an organized collection of data.[1] A ...
Building the Unstructured Data Warehouse: Architecture, Analysis, and Design
Building the Unstructured Data Warehouse: Architecture, Analysis, and Design earn essential techniqu ...
The Data Warehouse Toolkit 阅读笔记
前言这篇笔记的主要内容来至于The Data Warehouse Toolkit,该书可以称为数仓建模的圣经什么是星型模型以一个业务实时为主表.比如一笔订单就是一个业务事实.订单有商品的SKU信 ...
Azure SQL Data Warehouse
Azure SQL Data Warehouse & AWS Redshift Amazon Redshift Amazon Redshift 是一种快速.完全托管的 PB 级数据仓库,可方便 ...
场景4 Data Warehouse Management 数据仓库
场景4 Data Warehouse Management 数据仓库 parallel 4 100% —> 必须获得指定的4个并行度,如果获得的进程个数小于设置的并行度个数,则操作失败 para ...
浅析基于微软SQL Server 2012 Parallel Data Warehouse的大数据解决方案
作者王枫发布于2014年2月19日综述随着越来越多的组织的数据从GB.TB级迈向PB级,标志着整个社会的信息化水平正在迈入新的时代 – 大数据时代.对海量数据的处理.分析能力,日益成为组织在这个 ...
转：浅析基于微软SQL Server 2012 Parallel Data Warehouse的大数据解决方案
综述随着越来越多的组织的数据从GB.TB级迈向PB级,标志着整个社会的信息化水平正在迈入新的时代 – 大数据时代.对海量数据的处理.分析能力,日益成为组织在这个时代决胜未来的关键因素,而基于大数据的 ...
Data Warehouse
Knowledge Discovery Process OLTP & OLAP 联机事务处理(OLTP, online transactional processing)系统:涵盖组织机构大部 ...
data warehouse 1.0 vs 2.0
data warehouse 1.01. EDW goal, separate data marts reqlity2. batch oriented etl3. IT driven BI - das ...

随机推荐

Javascript 构造函数原型继承机制
我们先聊聊Js的历史,1994年Netscape公司发布了Navigator浏览器0.9班.这是历史上第一个比较成熟的网络浏览器.轰动一时.但是,这个版本的浏览器只能用来浏览,不具备交互功能,最主要的 ...
python urllib
在伴随学习爬虫的过程中学习了解的一些基础库和方法总结扩展 1. urllib 在urllib.request module中定义下面的一些方法 urllib.request.urlopen(url,d ...
使用极光/友盟推送，APP进程杀死后为什么收不到推送（转）
为什么会存在这样的问题,刚开始的时候我也搞不清楚,之前用极光的时候杀死程序后也会收到推送,但最近重新再去集成时就完全不好使了,这我就纳闷了,虽然Google在高版本上的android上面不建议线程守 ...
【NuGet】打包上传一条龙服务
昨天写了搭建自己的NuGet程序源,但是领导不满意之前的打包上传~~,无奈只能去爬点思路了,这里参考的其他博文,但是还是想写下来. 第一步.建立一个批处理文件在文件里,有三条命令: nuget pa ...
树链剖分+线段树 HDOJ 4897 Little Devil I（小恶魔）
题目链接题意: 给定一棵树,每条边有黑白两种颜色,初始都是白色,现在有三种操作: 1 u v:u到v路径(最短)上的边都取成相反的颜色 2 u v:u到v路径上相邻的边都取成相反的颜色(相邻即仅有一 ...
转：Webpack 指南（整理草稿）
基础安装首先要安装 Node.js, Node.js 自带了软件包管理器 npm.用 npm 全局安装 Webpack: $ npm install webpack -g 通常我们会将 Webpa ...
第二章 Matlab面向对象编程基础
DeepLab是一款基于Matlab面向对象编程的深度学习工具箱,所以了解Matlab面向对象编程的特点是必要的.笔者在做Matlab面向对象编程的时候发现无论是互联网上还是书店里卖的各式Matlab ...
【BZOJ3314】 [Usaco2013 Nov]Crowded Cows 单调队列
第一次写单调队列太垃圾... 左右各扫一遍即可. #include <iostream> #include <cstdio> #include <cstring> ...
browser-sync
引入大家写网页的时候,肯定都遇到这种情况,每次用sublime写完都要返回浏览器,刷新页面,而这个工具正好解决了这个问题,提高前端开发效率,这是一个npm的包 browser-sync browse ...
用soapUI测试webservice
测试webservice时,有时需要写一个客户端来向服务端发起请求才可以测试服务,最近看到一款工具soap ui,也可以调试VS2010中的程序. 首先要把webservice 发布到本地,网上已经有 ...

混合 Data Warehouse 和 Big Data 倉庫的新架構

混合 Data Warehouse 和 Big Data 倉庫的新架構的更多相关文章

随机推荐

热门专题