Hadoop批处理方案和 MPP架构方案作为数据仓库的区别

1，原理对比

MPP方案中的数据通常在节点之间拆分（分片），每个节点仅处理其本地数据。而且，每家都有专门为 MPP 解决方案开发的复杂而成熟的 SQL 优化器。它们都可以在内置语言和围绕这些解决方案的工具集方面进行扩展，支持地理空间分析、数据挖掘的全文搜索。在任务执行过程中，单一的 Executor 只处理一个单一的 task，因此可以简单直接将数据 stream 到下一个执行阶段。这个过程称为pipelining，它提供了很大的性能提升。而Hadoop 需要保存中间状态数据，IO存储速度拖慢了数据处理效率。

MPP 方案: Teradata greenpalm

hadoop 批处理方案: Mapreduce , HIVE , spark

2，对比表格

对比项	MPP	Hadoop
平台开放	封闭和专有。	完全开源的供应商和社区资源可通过互联网免费获得
硬件选项	许多解决方案都是使用供应商的设备的，您无法在自己的集群上部署软件。所有解决方案都需要特定的企业级硬件，例如快速磁盘、具有大量 ECC RAM 的服务器、10GbE/Infiniband 等。	对硬件要求低，自己定制
可扩展性（节点）	平均数十个节点，最多 100-200 个	平均 100 个节点，最多数千个
数据规模	平均数十 TB，PB 为最大值	平均数百 TB，最大数十 PB
查询延迟	10-20 毫秒	10-20 秒
查询平均运行时间	5-7秒	10-15分钟
查询最大运行时间	1-2小时	1-2周
查询优化	复杂的企业查询优化器引擎	没有优化器或功能非常有限的优化器
查询调试和分析	代表性查询执行计划和查询执行统计信息，解释性错误消息	OOM 问题和 Java 堆转储分析、集群组件上的 GC 暂停、每个任务的单独日志给你很多有趣的时间
最终用户的可访问性	简单友好的 SQL 界面和简单的可解释的数据库内函数	SQL 并不完全符合 ANSI，用户应该关心执行逻辑、底层数据布局。函数通常需要用Java编写，编译并放在集群上
用户受众	业务分析师	Java 开发人员和经验丰富的 DBA
单一作业冗余	低，当 MPP 节点失败时作业失败	高，只有节点管理作业失败，作业执行会失败
目标系统	通用数仓系统	专用数据处理引擎
最大并发	数十到数百个查询	根据集群能力，任何
技术生态	仅使用供应商提供的工具	与引入的任何全新开源工具（Spark、Samza、Tachyon 等）混合使用
DBA 技能水平要求	平均 RDBMS DBA	很高，具有良好的 Java 和 RDBMS 背景
解决方案实施复杂性	一般	很高

对比结论：

MPP: 商业化软件，服务更好，查询效率和优化器更好，价格更高，生态扩展性差，开发难度低。

hadoop 批处理方案: 开源方案，生态扩展性好，开发难度高。对于海量数据，处理低价值密度数据更适合。

Hadoop批处理方案和 MPP架构方案作为数据仓库的区别的更多相关文章

MySQL金融应用场景下跨数据中心的MGR架构方案（2）
GreatSQL社区原创内容未经授权不得随意使用,转载请联系小编并注明来源. 如何在多个数据中心部署多套MGR集群,并实现故障快速切换. 上篇文章介绍了如何在多数据中心部署多套MGR集群,并构建集群间 ...
Hadoop生态圈-构建企业级平台安全方案
Hadoop生态圈-构建企业级平台安全方案作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 能看到这篇文章的小伙伴,估计你对大数据集群的部署对于你来说应该是手到擒来了吧.我之前分享过 ...
MySQL双主（主主）架构方案
在企业中,数据库高可用一直是企业的重中之重,中小企业很多都是使用mysql主从方案,一主多从,读写分离等,但是单主存在单点故障,从库切换成主库需要作改动.因此,如果是双主或者多主,就会增加mysql入 ...
MySQL数据库的优化（下）MySQL数据库的高可用架构方案
MySQL数据库的优化(下)MySQL数据库的高可用架构方案 2011-03-09 08:53 抚琴煮酒 51CTO 字号:T | T 在上一篇MySQL数据库的优化中,我们跟随笔者学习了单机MySQ ...
本地日志数据实时接入到hadoop集群的数据接入方案
1. 概述本手册主要介绍了,一个将传统数据接入到Hadoop集群的数据接入方案和实施方法.供数据接入和集群运维人员参考. 1.1. 整体方案 Flume作为日志收集工具,监控一个文件目录或者一个文 ...
几种常见的微服务架构方案简述——ZeroC IceGrid、Spring Cloud、基于消息队列
微服务架构是当前很热门的一个概念,它不是凭空产生的,是技术发展的必然结果.虽然微服务架构没有公认的技术标准和规范草案,但业界已经有一些很有影响力的开源微服务架构平台,架构师可以根据公司的技术实力并结合 ...
redis集群主流架构方案分析
Redis在互联网大数据平台有着广泛的应用,主要被用来缓存热点数据,避免海量请求压垮数据库,同时可以提升服务节点的响应速度和并发量.随着数据量的增多,由于redis是占用单台物理机或虚机的内存,内存资 ...
(转)mysql数据库高可用高扩展性架构方案实施
http://shanhu.blog.51cto.com/1293405/1212605-----mysql数据库高可用高扩展性架构方案实施
几种常见的微服务架构方案——ZeroC IceGrid、Spring Cloud、基于消息队列、Docker Swarm
微服务架构是当前很热门的一个概念,它不是凭空产生的,是技术发展的必然结果.虽然微服务架构没有公认的技术标准和规范草案,但业界已经有一些很有影响力的开源微服务架构平台,架构师可以根据公司的技术实力并结合 ...
mysql复制(高可用架构方案的基础)
mysql复制:把一个数据库实例上所有改变复制到另外一个数据库库服务器实例的过程特点:1.没有改变就无所谓复制 ;改变是复制的根本与数据源2.所有的改变:是指可以复制全部改变,也可以复制部分改变可以 ...

随机推荐

计算机网络14 Internet网络层主要功能 IP协议路由协议 ICMP协议
1 主机.路由器网络层主要功能 2 IP数据报 2.1 图示 2.2 字段详细介绍 1)版本号占4位:IP协议的版本号.4表示IPv4,6表示IPv6. 2)首部长度占4位:表示IP分组首部长度. ...
Activiti02流程基本功能使用
主要分为一下几个步骤: 1.画图 2.部署流程-把图的信息转入到数据表格中 3.创建流程实例-开始一个流程-实际发起了一个流程 4.执行任务:获取任务+完成任务 1.画图画了一个简单的流程图,图形文 ...
centos7.6安装teamviewer-原来还可以用yum 安装rpm包,自动解决依赖,太爽了
1.在官网下载teamviewer安装包 2.安装.一直用rpm -ivh 的方式安装rpm包,但是不会自动解决依赖,今天才知道,原来还可以用yum -y install rpm包,自动解决依赖. [ ...
三分钟使用chatGPT
ChatGPT最近也是火爆出圈,网上已被刷屏. 今天我们说一下,使用ChatGPT的方法,很简单,只需要三步: 前期确保自己能访问google,IP地址为某些国家:否则检查会报错:Services a ...
题解 [SCOI2007]压缩
好题. 显然区间 dp,令 \(f_{l, r}\) 为 \([l, r]\) 之间的最短的长度.如果我们要压缩,那么就要考虑 M 与 R 的位置.由于我们大体是从左往右来转移的,所以显然我们只需要记 ...
获取微信小程序列表渲染 index
微信小程序列表渲染 index(索引值)通过 wx:for-index="index" 来获取: <view class="item" wx:for=&q ...
centos7 部署 loonflow
a workflow engine base on django 基于django的工作流引擎系统(通过http接口调用,可以作为企业内部统一的工作流引擎,提供诸如权限申请.资源申请.发布申请.请假. ...
JavaWeb中的Servlet
Servlet 目录 Servlet 一.互联网中的资源二.Servlet 2.1.Servlet的作用 2.2.Servlet执行流程 2.3.Servlet生命周期 2.4.Servlet的继承 ...
WINFORM DEVEXPRESS插件常用功能总结
前言 DevExpress 控件的功能比较强大,是全球知名控件开发公司,对于开发 B/S 或 C/S 都非常出色,可以实现很炫且功能强大的效果.DevExpress Winform 常用控件是本人在前 ...
mui、拍照、个推推送消息【问题链接】
HTML5 Plus 拍照或者相册选择图片上传 HBuilder webApp开发(四)相册/拍照-图片上传 HTML5+ API 个推推送, APP是用Webview内嵌WEB程序,个推角标如何实现 ...

Hadoop批处理方案 和 MPP架构方案 作为数据仓库的区别

Hadoop批处理方案 和 MPP架构方案 作为数据仓库的区别的更多相关文章

随机推荐

热门专题

Hadoop批处理方案和 MPP架构方案作为数据仓库的区别

Hadoop批处理方案和 MPP架构方案作为数据仓库的区别的更多相关文章