(讀書筆記)
許多公司,儘管想導入 Big Data,仍必須繼續用 Data Warehouse 來管理結構化的營運數據、系統記錄。而 Big Data 的出現,為 Data Warehouse 提供了一個互補的機會,而不是取代後者。

高度結構化的營運資料 (data,數據),仍然可保留在 Data Warehouse 中;而分散式 (distributed) 的資料,以及會即時改變的資料,則可交由基於 Hadoop 的架構來控制。


圖 1 傳統的 Data Warehouse 和 Data Mart 架構


圖 2 混合 Data Warehouse 和 Big Data 倉庫的新架構

一間公司的客戶、潛在使用者,在網路上和實體上的互動,這些大量產生的數據,傳統的 Data Warehouse 僅能跟蹤交易及營運數據,但卻不能跟蹤網路流量及相關資訊。為了儘可能多保留這些數據,與其建立一個 Data Warehouse 來儲存所有數據,不如用 Hadoop 分散式計算的方式,將數據存放在公司的伺服器上。這樣,公司就能將所有來自「網頁互動」的數據保存下來了。這些數據儲存在運行著 Hadoop 和 MapReduce 的伺服器叢集 (cluster) 中,配合使用 Flume 和 Sqoop 之類的工具,公司的資訊團隊,就能夠將數據從 Hadoop 裡遷移出來,匯入關聯式模型及資料庫中,讓大家用熟悉的傳統 SQL 工具來查詢。

這樣公司就能在發現某些客戶群,希望獲得某些新型態服務時,快速地轉變服務和產品。公司 (線上旅遊網站) 還能夠預測一些趨勢,像是如何適時地調整機票的價格。這些數據中,有一部分仍保留在 Hadoop 環境中,並能保持幾乎「即時」的更新;另有一些數據,經過處理後,已被轉移到了 Data Warehouse 中,這樣他們就可用於和歷史數據進行比對。既有的 Data Warehouse 繼續提供公司業務需要的內容,Hadoop 環境則可以跟蹤每分鐘都發生了什麼事。這種將系統記錄與 Data Warehouse 整合的動態大數據系統,能為公司提供巨大的商機,讓公司能在網路世界中,把即時產生的大量數據、分析結果,應用到公司的業務上。

----------------------------------------------
以上節錄自 Big Data For Dummies 簡體中譯本
Ch11, 設備和大數據倉庫

該書 260頁,圖多,內容偏重講原理、技術簡介、和企業既有應用的整合,幾乎沒程式碼 (適合老闆和主管看)

写给大家看的大数据(簡體中譯本):
http://www.m.sanmin.com.tw/Product/Index/004706578
ISBN13:9787115356130
ISBN: 9781118504222

混合 Data Warehouse 和 Big Data 倉庫的新架構的更多相关文章

  1. DataBase vs Data Warehouse

    Database https://en.wikipedia.org/wiki/Database A database is an organized collection of data.[1] A ...

  2. Building the Unstructured Data Warehouse: Architecture, Analysis, and Design

    Building the Unstructured Data Warehouse: Architecture, Analysis, and Design earn essential techniqu ...

  3. The Data Warehouse Toolkit 阅读笔记

    前言 这篇笔记的主要内容来至于The Data Warehouse Toolkit,该书可以称为数仓建模的圣经 什么是星型模型 以一个业务实时为主表.比如一笔订单就是一个业务事实.订单有商品的SKU信 ...

  4. Azure SQL Data Warehouse

    Azure SQL Data Warehouse & AWS Redshift Amazon Redshift Amazon Redshift 是一种快速.完全托管的 PB 级数据仓库,可方便 ...

  5. 场景4 Data Warehouse Management 数据仓库

    场景4 Data Warehouse Management 数据仓库 parallel 4 100% —> 必须获得指定的4个并行度,如果获得的进程个数小于设置的并行度个数,则操作失败 para ...

  6. 浅析基于微软SQL Server 2012 Parallel Data Warehouse的大数据解决方案

    作者 王枫发布于2014年2月19日 综述 随着越来越多的组织的数据从GB.TB级迈向PB级,标志着整个社会的信息化水平正在迈入新的时代 – 大数据时代.对海量数据的处理.分析能力,日益成为组织在这个 ...

  7. 转:浅析基于微软SQL Server 2012 Parallel Data Warehouse的大数据解决方案

    综述 随着越来越多的组织的数据从GB.TB级迈向PB级,标志着整个社会的信息化水平正在迈入新的时代 – 大数据时代.对海量数据的处理.分析能力,日益成为组织在这个时代决胜未来的关键因素,而基于大数据的 ...

  8. Data Warehouse

    Knowledge Discovery Process OLTP & OLAP 联机事务处理(OLTP, online transactional processing)系统:涵盖组织机构大部 ...

  9. data warehouse 1.0 vs 2.0

    data warehouse 1.01. EDW goal, separate data marts reqlity2. batch oriented etl3. IT driven BI - das ...

随机推荐

  1. openfl使用64位的ndk时,编译报错的问题!

    当使用64位的ndk时,如果使用openfl test android运行android测试,应该会出现 arm-linux-androideabi-g++:找不到这个命令的错误. 原因是,haxel ...

  2. node.js之开发环境搭建

    一.安装linux系统 (已安装linux可跳此步骤) 虚拟机推荐选择:VirtualBox 或者 Vmware (专业版永久激活码:5A02H-AU243-TZJ49-GTC7K-3C61N) 我这 ...

  3. SOAPUI使用教程-REST服务和WADL

    首先创建一个新的REST项目: 选择文件|新建项目REST从主菜单: 通常情况下,我们可能会只提供一个URI 点击导入消耗. 在新建项目消耗对话框: 点击浏览. 然后,我们可以浏览到该文件: 点击   ...

  4. spark 问题

    问题描述1 使用spark-shell ,sc.textFile("hdfs://test02.com:8020/tmp/w").count 出现如下异常: java.lang.R ...

  5. Shader实例:NGUI图集中的UISprite正确使用Shader的方法

    效果: 变灰,过滤,流光 都是UI上常用效果. 比如: 1.按钮禁用时,变灰. 2.一张Icon要应付圆形背景框,又要应付矩形背景框.就要使用过滤的方式来裁剪. 避免了美术提供两张icon的麻烦,又节 ...

  6. 新入门node.js必须要知道的概念

    一.对于一个刚入门node.js的朋友来说,一定要了解一些基础概念: 今年我正式进入社会后,发现自己所知道的IT方面的知识,真的只是牛毛,原来人外有人,山外有山,还需要继续努力.下面是一些我的自学习心 ...

  7. Linux软件安装

    #配置/etc/apt/sources.list 通过root权限修改/etc/apt/sources.list $ su #输入密码进入root权限 $ chmod 0666 /etc/apt/so ...

  8. 解决Ionic的ion-slide-box 2条数据渲染问题

    当slider数据列表是动态获取时,如果数据结果只有2条数据时,slider列表会多复制俩个,通过下面的slideChange方法做个判断可以解决这个bug 第一步:添加slideChande方法 & ...

  9. css中关于居中的问题

    居中是最常用的一种css格式,不同的居中方法适和不同的环境中,下面总结了几种常用的居中方法,你可以不用它,但是无论你是一个资深前端大牛,还是小小初学者,当你见到它的时候不认识它就是你的不对啦!!! h ...

  10. CentOS 6.5系统安装配置LAMP(Apache+PHP5+MySQL)服务器环境

    安装篇: 一.安装Apache yum install httpd #根据提示,输入Y安装即可成功安装 /etc/init.d/httpd start#启动Apache 备注:Apache启动之后会提 ...