初识大数据（三. Hadoop与MPP数据仓库）

　　MPP代表大规模并行处理，这是网格计算中所有单独节点参与协调计算的方法。是将任务并行的分散到多个服务器和节点上，在每个节点上计算完成后，将各自部分的结果汇总在一起得到最终的结果。 MPP DBMS是建立在这种方法之上的数据库管理系统。在这些系统中的每个查询都会被分解为由MPP网格的节点并行执行的一组协调进程，它们的运行时间比传统的SMP RDBMS系统快得多。该架构的另一个优点是可扩展性，因为可以通过添加新节点扩展网格。为了能够处理大量的数据，这些解决方案中的数据通常在每个节点只处理其本地数据的方式在节点（分片）之间分割。这是一种完全无共享(Share Nothing)结构，因而扩展能力最好，理论上其扩展无限制，目前技术上可实现512个节点互联，数千个CPU。MPP有对SQL的完整兼容和一些事务处理功能，如果数据扩展需求不是特别大，数据都是结构化数据，习惯使用传统RDBMS，可以选择MPP数据仓库。

目前有很多关于hadoop技术栈与MPP数据仓库的讨论与对比，很多观点认为hadoop可以替代MPP,但是从下表的比对可以看出两者的差异，对于不同的场景以及MPP技术的发展，应该还是处于并存的状态。另外，基于复杂的数据场景下，混合框架的使用，也还是会存的。我们团队就使用混合框架构建了数据中心，从而完善OLTP能力。

以下是两者的比较：

特性	Hadoop	MPP数据仓库
计算节点数	可到数千个	一般1000个以内
数据量	支持大于10P	一般不大于10P
数据类型	关系型，半关系型，无结构化，语音，图像，视频	关系型
时延	中/高	低（但还是要看数据量和维度的数量）
应用生态	创新型/人工智能	传统数据库型/BI类
应用开发接口	SQL，MR，丰富的编程语言接口	标准数据库SQL
可扩展性	无穷的可能，完整的编程接口	有限扩展能力，主要通过UDF支持
事务支持	有限	完整
价格	低	高

初识大数据（三. Hadoop与MPP数据仓库）的更多相关文章

hadoop（一）之初识大数据与Hadoop
前言从今天起,我将一步一步的分享大数据相关的知识,其实很多程序员感觉大数据很难学,其实并不是你想象的这样,只要自己想学,还有什么难得呢? 学习Hadoop有一个8020原则,80%都是在不断的配置配 ...
Hadoop基础之初识大数据与Hadoop
前言从今天起,我将一步一步的分享大数据相关的知识,其实很多程序员感觉大数据很难学,其实并不是你想象的这样,只要自己想学,还有什么难得呢? 学习Hadoop有一个8020原则,80%都是在不断的配置配 ...
大数据和Hadoop生态圈
大数据和Hadoop生态圈一.前言: 非常感谢Hadoop专业解决方案群:313702010,兄弟们的大力支持,在此说一声辛苦了,经过两周的努力,已经有啦初步的成果,目前第1章大数据和Hadoop ...
大数据：Hadoop入门
大数据:Hadoop入门一:什么是大数据什么是大数据: (1.)大数据是指在一定时间内无法用常规软件对其内容进行抓取,管理和处理的数据集合,简而言之就是数据量非常大,大到无法用常规工具进行处理,如 ...
大数据和Hadoop时代的维度建模和Kimball数据集市
小结: 1. Hadoop 文件系统中的存储是不可变的,换句话说,只能插入和追加记录,不能修改数据.如果你熟悉的是关系型数据仓库,这看起来可能有点奇怪.但是从内部机制看,数据库是以类似的机制工作,在一 ...
大数据与Hadoop
figure:first-child { margin-top: -20px; } #write ol, #write ul { position: relative; } img { max-wid ...
Hadoop专业解决方案-第1章大数据和Hadoop生态圈
一.前言: 非常感谢Hadoop专业解决方案群:313702010,兄弟们的大力支持,在此说一声辛苦了,经过两周的努力,已经有啦初步的成果,目前第1章大数据和Hadoop生态圈小组已经翻译完成,在此 ...
大数据技术Hadoop入门理论系列之一----hadoop生态圈介绍
Technorati 标记: hadoop,生态圈,ecosystem,yarn,spark,入门 1. hadoop 生态概况 Hadoop是一个由Apache基金会所开发的分布式系统基础架构. 用 ...
大数据测试之hadoop集群配置和测试
大数据测试之hadoop集群配置和测试一.准备(所有节点都需要做):系统:Ubuntu12.04java版本:JDK1.7SSH(ubuntu自带)三台在同一ip段的机器,设置为静态IP机器分配 ...

随机推荐

flex-grow，flex-shrink,flex-basis及flex
flex-grow:默认值0:分配剩余空间的扩张比例: flex-basis:默认值auto:倘若设置了此属性,那么计算剩余空间之前要优先减去此属性,且它的层级比width高,会将width覆盖. 有 ...
pytest学习--快速入门
一.pytest简介 Pytest是python的一种单元测试框架. pytest的特点: 入门简单,文档丰富支持单元测试,功能测试支持参数化,重复执行,部分执行,测试跳过兼容其他测试框架(no ...
Linux下使用ps命令查看某个进程文件的启动位置
ps -ef|grep shutdown ls -al /proc/4170
mybatis实现自定义typeHandler
java8以前的日期处理有多恶心,相信不少人都深有体会.与mabatis集成查询数据库中的日期字段映射为java日期类型或者字符型的时候,会多出一个".0".当然可以自行处理.但是 ...
《CSAPP》读书笔记
第一章第二章第三章第四章第五章第六章第七章链接可重定位目标文件符号和符号表符号解析第八章第九章虚拟存储器虚拟存储器页表.页命中.缺页地址翻译第十章第十一章第十二章 ...
CentOS7编译安装mysql-5.6.43
Step 1:安装编译需要的软件和工具 [root@node-1 ~]# yum install gcc gcc-c++ cmake ncurses-devel bison Step 2:创建mysq ...
command not found解决方案
如果新装的系统,运行一些很正常的诸如:shutdown,fdisk的命令时,悍然提示:bash:command not found.那么首先就要考虑root 的$PATH里是否已经包含了这些环境变量 ...
ES查询－match VS match_phrase
我们以一个查询的示例开始,我们在student这个type中存储了一些学生的基本信息,我们分别使用match和match_phrase进行查询. 首先,使用match进行检索,关键字是“He is”: ...
关于键盘事件对象code值
e.keyCode || e.which || e.charCode; //IE只有keyCode属性,FireFox中有which和charCode属性,Opera中有keyCode和which属性 ...
pytesseract在识别只有一个数字的图片时识别不出来
大家好,近期在做自动化测试时,遇到了一个问题需要通过识别图片来实现,遂用到了pytesseract模块和tesseract-ocr这个工具.在使用过程中发现,识别带有数字的图片时,如果这个图片上仅有一 ...

初识大数据（三. Hadoop与MPP数据仓库）

初识大数据（三. Hadoop与MPP数据仓库）的更多相关文章

随机推荐

热门专题