MPP调研

一、MMP数据库

MPP是massively parallel processing，一般指使用多个SQL数据库节点搭建的数据仓库系统。执行查询的时候，查询可以分散到多个SQL数据库节点上执行，然后汇总返回给用户。MPP解决了单个SQL数据库不能存放海量数据的问题，但是也存在一些问题，例如：当节点数达到100左右的时候，MPP有些仍会遇到Scalability的问题，速度变慢，或者不稳定。而且，当增加或者删除节点的时候，需要的维护工作仍然比较大，集群会遇到数据迁移和重新平衡的问题。SQL on Hadoop是利用Hadoop平台存储数据，在其之上实现SQL查询引擎。最大的特点和Scalability非常好，可以支持超过1000各节点的集群。但是由于Hadoop的特点，很多查询还是需要做大量的数据扫描操作，因此查询速度往往比MPP要慢，而且支持的同时并发查询数一般也比较低。

二、MPP原理

MPP原理朴素上说就是分治思想，均分task。然后每个worker/segment上做的都是同样的sub-task，pipeline方式执行，理想情况下性能是非常优异的。但是很容易受到慢worker（它是最长路径）和interconnect的影响，所以scalability不佳，集群规模在十几个节点后就没有性能提升了（甚至还可能下降）。HADOOP原理更类似batch processing，更细粒度切分task，worker能者多劳（每个worker上执行的任务可以是不平均，不一致的）。单独worker看，性能不及MPP，但是胜在scalability优异，几百个节点是没问题的，在集群性上远胜MPP。另外从业务上看，传统企业数据量有限，所以更倾向于full-sql支持的MPP方案。而互联网企业更乐于用hadoop来处理更大规模的数据。近几年来二者是互相融合学习的（MPP提升scalability，hadoop提升sql的支持），所以今后二者的区别应该会越来越模糊，最后可能诞生一个大一统OLAP方案（甚至再融合OLTP）。

三、MPP数据库对比SQL On Hadoop

因为一些SQL On Hadoop系统例如Impala也被称为MPP架构。这里是正统的MPP数据库对比SQL On Hadoop。那么对比两边其实是诸如Vertica，阿里ADS，GreenPlum，Redshift vs Impala，Hive以及SparkSQL，Presto等。这两者很大程度上的差异其实在于，对存储的控制。
对于Hadoop而言，数据最常见的存在形式是数据湖，也就是数据本身未经很多整理，数据倾向于读取的时候再解析，而且多个系统处理不同的workload一起共享同一套数据湖。例如你可以用Spark，MR以及Impala读取Hive的数据，甚至直接读取HDFS上的Parquet，ORC文件。这份数据可以用来做BI数仓也可以用来做ML模型训练等等。
而MPP数据库则相反，MPP为了速度，需要将数据导入做一定处理，整理成优化的格式以便加速。这样做的后果就是，它们的存储类似一个黑盒，数据进去之后很难被别的系统直接读取。当然Vertica之类的系统也有SQL On Hadoop的运行模式，但是速度会有所下降，看过Vertica的Benchmark，对比Impala在Hadoop模式下，并不是有多大的优势，甚至有部分查询更慢。这部分性能损失，就是抛开黑盒存储所带来的差异。
另外SQL On Hadoop产品和MPP数据库的很多差异，其实是工程上成熟度的差异。例如CBO这样的优化，可能在数据库领域已经非常常见，但是对SQL On Hadoop还可以说是个新鲜玩意，至少2016-08-30为止，SparkSQL和Presto还没有CBO。而列存的引入也是近些年的事情，相对Vertica应该是从诞生就使用了列存。这些差异很可能会很快被补上。而底层存储部分，随着Parquet ORC这样相对复杂，借用了不少传统数据库领域经验的格式不断优化，也许今后SQL On Hadoop会和MPP数据库越来越近似。

参考文献：

MPP调研的更多相关文章

Postgresql-xl 调研
Postgresql-xl 调研来历这个项目的背后是一家叫做stormDB的公司.整个代买基于postgres-xc.开源版本应该是stormdb的一个分支. In 2010, NTT's Ope ...
SQL on Hadoop中用到的主要技术——MPP vs Runtime Framework
转载声明本文转载自盘点SQL on Hadoop中用到的主要技术,个人觉得该文章对于诸如Impala这样的MPP架构的SQL引擎和Runtime Framework架构的Hive/Spark SQL ...
Apache Drill 调研学习
Apache Drill 调研学习 ## 一.Drill概述在大数据时代,对于Hadoop中的信息,越来越多的用户需要能够获得快速且互动的分析方法.大数据面临的一个很大的问题是大多数分析查询都很缓慢 ...
CMS模板应用调研问卷
截止目前,已经有数十家网站与我们合作,进行了MIP化改造,在搜索结果页也能看到"闪电标"的出现.除了改造方面的问题,MIP项目组被问到最多的就是:我用了wordpress,我用了织 ...
记lrd的高二上学期第五次调研考试
河北某某中学的调研考试其实是很好玩的经历呢.可惜没有太多机会了. 背景: NOIP2016回来之后没有好好学文化课-.自习能翘就翘了,衡中特产学案自助没有好好写(说来我好像从来没被老师查到过,上课写学 ...
asp.net 读取导入的project（mpp）文件
公司项目有用到读取project文件(.mpp)并保存到指定数据库类似的功能. 查了一下大家总结的方法. 找到一哥们代码,初步判断可行,特此收藏. using System.IO; using Mic ...
SMP、NUMA、MPP(Teradata)体系结构介绍
从系统架构来看,目前的商用服务器大体可以分为三类,即对称多处理器结构 (SMP : Symmetric Multi-Processor) ,非一致存储访问结构 (NUMA : Non-Uniform ...
《Kafka Stream》调研：一种轻量级流计算模式
原文链接:https://yq.aliyun.com/articles/58382 摘要: 流计算,已经有Storm.Spark,Samza,包括最近新起的Flink,Kafka为什么再自己做一套流计 ...
OpenStack调研：OpenStack是什么、版本演变、组件关系（Havana）、同类产品及个人感想
一点调研资料,比较浅,只是觉得部分内容比较有用,记在这里: 首先,关于云计算,要理解什么是SAAS.PAAS.IAAS,这里不述:关于虚拟化,需要知道什么是Hypervisor,这里也不述: Open ...

随机推荐

X11/Xlib.h：没有该文件或目录
编译程序时出现的错误,在安装日志上发现一句:x11/xlib.h nosuch file or directory 在网上查阅了资料,原来是x11M没有装. 解决方案:先安装X11,命令为 su ...
爬虫入门之Scrapy框架实战(新浪百科豆瓣)(十二)
一新浪新闻爬取 1 爬取新浪新闻(全站爬取) 项目搭建与开启 scrapy startproject sina cd sina scrapy genspider mysina http://roll ...
centos 6 YUM安装 lnmp
准备篇: 1.配置防火墙,开启80端口.3306端口 vi /etc/sysconfig/iptables -A INPUT -m state --state NEW -m t ...
Win7系统托盘解决出现CH图标的方法
中文环境下,使用的英文键盘应该是“中文(简体)-美式键盘",这个输入法虽然是用来打英文的,但是归到中文类的,对应就是CH 如果因为某些不知明原因,增加了"美式键盘"等其他 ...
浅谈js冒泡事件2
js冒泡阻止 1. 事件目标现在,事件处理程序中的变量event保存着事件对象.而event.target属性保存着发生事件的目标元素.这个属性是DOM API中规定的,但是没有被所有浏览器实现 . ...
CefSharp 浏览器核心,爬虫
CefSharp是什么 A framework for embedding web-browsing-like capabilities to a standard .NET application ...
SOJ4389 川大贴吧水王队列
描述 _L的室友HZ喜欢在川大贴吧上发帖,据传说,HZ在川大贴吧上发的贴子数已经超过了该贴吧贴子总数的一半,被江湖人封为川大贴吧水王,你能帮_L迅速找出这位川大贴吧水王HZ的ID吗? 已知川大贴吧贴子 ...
JS常用方法封装
迭代添加各种常用方法:项目中一定会有很多常用的方法,包括:取值,校验,等...... 获取 url 后的参数 function getQueryString(name) { var reg = new ...
Linux 系统下Eclipse安装及使用
Linux 系统下Eclipse安装及使用我们在搞上层开发的时候,都是在Windows下使用Eclipse,那么如果是Linux应用开发,就必须要在Linux中安装Eclipse,用于C/C++开发 ...
PL\SQL设置中文
打开PL\SQL 1.菜单->Tools ->preferences->User Interface -> Appearance -> Language 选择 Chine ...