初识大数据（三. Hadoop与MPP数据仓库）

　　MPP代表大规模并行处理，这是网格计算中所有单独节点参与协调计算的方法。是将任务并行的分散到多个服务器和节点上，在每个节点上计算完成后，将各自部分的结果汇总在一起得到最终的结果。 MPP DBMS是建立在这种方法之上的数据库管理系统。在这些系统中的每个查询都会被分解为由MPP网格的节点并行执行的一组协调进程，它们的运行时间比传统的SMP RDBMS系统快得多。该架构的另一个优点是可扩展性，因为可以通过添加新节点扩展网格。为了能够处理大量的数据，这些解决方案中的数据通常在每个节点只处理其本地数据的方式在节点（分片）之间分割。这是一种完全无共享(Share Nothing)结构，因而扩展能力最好，理论上其扩展无限制，目前技术上可实现512个节点互联，数千个CPU。MPP有对SQL的完整兼容和一些事务处理功能，如果数据扩展需求不是特别大，数据都是结构化数据，习惯使用传统RDBMS，可以选择MPP数据仓库。

目前有很多关于hadoop技术栈与MPP数据仓库的讨论与对比，很多观点认为hadoop可以替代MPP,但是从下表的比对可以看出两者的差异，对于不同的场景以及MPP技术的发展，应该还是处于并存的状态。另外，基于复杂的数据场景下，混合框架的使用，也还是会存的。我们团队就使用混合框架构建了数据中心，从而完善OLTP能力。

以下是两者的比较：

特性	Hadoop	MPP数据仓库
计算节点数	可到数千个	一般1000个以内
数据量	支持大于10P	一般不大于10P
数据类型	关系型，半关系型，无结构化，语音，图像，视频	关系型
时延	中/高	低（但还是要看数据量和维度的数量）
应用生态	创新型/人工智能	传统数据库型/BI类
应用开发接口	SQL，MR，丰富的编程语言接口	标准数据库SQL
可扩展性	无穷的可能，完整的编程接口	有限扩展能力，主要通过UDF支持
事务支持	有限	完整
价格	低	高

初识大数据（三. Hadoop与MPP数据仓库）的更多相关文章

hadoop（一）之初识大数据与Hadoop
前言从今天起,我将一步一步的分享大数据相关的知识,其实很多程序员感觉大数据很难学,其实并不是你想象的这样,只要自己想学,还有什么难得呢? 学习Hadoop有一个8020原则,80%都是在不断的配置配 ...
Hadoop基础之初识大数据与Hadoop
前言从今天起,我将一步一步的分享大数据相关的知识,其实很多程序员感觉大数据很难学,其实并不是你想象的这样,只要自己想学,还有什么难得呢? 学习Hadoop有一个8020原则,80%都是在不断的配置配 ...
大数据和Hadoop生态圈
大数据和Hadoop生态圈一.前言: 非常感谢Hadoop专业解决方案群:313702010,兄弟们的大力支持,在此说一声辛苦了,经过两周的努力,已经有啦初步的成果,目前第1章大数据和Hadoop ...
大数据：Hadoop入门
大数据:Hadoop入门一:什么是大数据什么是大数据: (1.)大数据是指在一定时间内无法用常规软件对其内容进行抓取,管理和处理的数据集合,简而言之就是数据量非常大,大到无法用常规工具进行处理,如 ...
大数据和Hadoop时代的维度建模和Kimball数据集市
小结: 1. Hadoop 文件系统中的存储是不可变的,换句话说,只能插入和追加记录,不能修改数据.如果你熟悉的是关系型数据仓库,这看起来可能有点奇怪.但是从内部机制看,数据库是以类似的机制工作,在一 ...
大数据与Hadoop
figure:first-child { margin-top: -20px; } #write ol, #write ul { position: relative; } img { max-wid ...
Hadoop专业解决方案-第1章大数据和Hadoop生态圈
一.前言: 非常感谢Hadoop专业解决方案群:313702010,兄弟们的大力支持,在此说一声辛苦了,经过两周的努力,已经有啦初步的成果,目前第1章大数据和Hadoop生态圈小组已经翻译完成,在此 ...
大数据技术Hadoop入门理论系列之一----hadoop生态圈介绍
Technorati 标记: hadoop,生态圈,ecosystem,yarn,spark,入门 1. hadoop 生态概况 Hadoop是一个由Apache基金会所开发的分布式系统基础架构. 用 ...
大数据测试之hadoop集群配置和测试
大数据测试之hadoop集群配置和测试一.准备(所有节点都需要做):系统:Ubuntu12.04java版本:JDK1.7SSH(ubuntu自带)三台在同一ip段的机器,设置为静态IP机器分配 ...

随机推荐

layui-xtree 设置单选框，只能选一个
以下是js代码,首先获取所有节点,再设置只有当前点击的节点状态为选中状态 $.ajax({ type: 'get', url: url, error: function(err){ layer.ale ...
Tomcat的三种安装方式:解压版、安装版、配置成Windows服务版
https://blog.csdn.net/Jessica_XLF/article/details/81711429
关于微博api中发布话题的api问题
https://api.weibo.com/2/statuses/update.json 发布过程中出现的问题必须在连接加上发布的,access_token,status 例如 https://ap ...
大数据入门到精通17--union all 和disctinct 的用法
一.union all 的用法.使用union all 或者 unionselect * from rental where rental_id <10union allselect * fro ...
自己实现HashMap
一载体 HashMap是由数组组成,数组元素为哈希链. 数组 public class MyHashMap<K, V> { transient Node<K, V>[] tab ...
d3.js d3.transform 方法移除的解决方案
rt d3.transform在新版本中移除需要自行写出该功能 function getTranslation(transform) { // Create a dummy g for calcul ...
微信小程序如何接入？
1.线下扫码:小程序最基础的获取方式,是二维码.大家可以打开扫一扫,通过微信扫描线下二维码的方式进入小程序.这也是官方宣传中,最普遍的实用场景. 如何生成小程序导入码? 2.微信搜索 3.公众号关联 ...
poj2182（线段树求序列第k小）
题目链接:https://vjudge.net/problem/POJ-2182 题意:有n头牛,从1..n编号,乱序排成一列,给出第2..n个牛其前面有多少比它编号小的个数,记为a[i],求该序列的 ...
python3 报错
urllib.error.URLError: <urlopen error [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed: ...
bootstrap模态框手动关闭遮盖层不消失
模态框中加载了一个子页面子页面中调教表单之后想根据执行结果手动关闭模态框,最初尝试了以下几种方案: 1.$("#myModal").modal('hide');//模态框关闭 ...

初识大数据（三. Hadoop与MPP数据仓库）

初识大数据（三. Hadoop与MPP数据仓库）的更多相关文章

随机推荐

热门专题