Hadoop批处理方案 和 MPP架构方案 作为数据仓库的区别
1,原理对比
MPP方案中的数据通常在节点之间拆分(分片),每个节点仅处理其本地数据。而且,每家都有专门为 MPP 解决方案开发的复杂而成熟的 SQL 优化器。它们都可以在内置语言和围绕这些解决方案的工具集方面进行扩展,支持地理空间分析、数据挖掘的全文搜索。在任务执行过程中,单一的 Executor 只处理一个单一的 task,因此可以简单直接将数据 stream 到下一个执行阶段。这个过程称为pipelining,它提供了很大的性能提升。而Hadoop 需要保存中间状态数据,IO存储速度拖慢了数据处理效率。
MPP 方案: Teradata greenpalm
hadoop 批处理方案: Mapreduce , HIVE , spark
2,对比表格
| 对比项 | MPP | Hadoop |
| 平台开放 | 封闭和专有。 |
完全开源的供应商和社区资源可通过互联网免费获得 |
| 硬件选项 | 许多解决方案都是使用供应商的设备的,您无法在自己的集群上部署软件。所有解决方案都需要特定的企业级硬件,例如快速磁盘、具有大量 ECC RAM 的服务器、10GbE/Infiniband 等。 | 对硬件要求低,自己定制 |
| 可扩展性(节点) | 平均数十个节点,最多 100-200 个 | 平均 100 个节点,最多数千个 |
| 数据规模 | 平均数十 TB,PB 为最大值 | 平均数百 TB,最大数十 PB |
| 查询延迟 | 10-20 毫秒 | 10-20 秒 |
| 查询平均运行时间 | 5-7秒 | 10-15分钟 |
| 查询最大运行时间 | 1-2小时 | 1-2周 |
| 查询优化 | 复杂的企业查询优化器引擎 | 没有优化器或功能非常有限的优化器 |
| 查询调试和分析 | 代表性查询执行计划和查询执行统计信息,解释性错误消息 | OOM 问题和 Java 堆转储分析、集群组件上的 GC 暂停、每个任务的单独日志给你很多有趣的时间 |
| 最终用户的可访问性 | 简单友好的 SQL 界面和简单的可解释的数据库内函数 | SQL 并不完全符合 ANSI,用户应该关心执行逻辑、底层数据布局。函数通常需要用Java编写,编译并放在集群上 |
| 用户受众 | 业务分析师 | Java 开发人员和经验丰富的 DBA |
| 单一作业冗余 | 低,当 MPP 节点失败时作业失败 | 高,只有节点管理作业失败,作业执行会失败 |
| 目标系统 | 通用数仓系统 | 专用数据处理引擎 |
| 最大并发 | 数十到数百个查询 | 根据集群能力,任何 |
| 技术生态 | 仅使用供应商提供的工具 | 与引入的任何全新开源工具(Spark、Samza、Tachyon 等)混合使用 |
| DBA 技能水平要求 | 平均 RDBMS DBA | 很高,具有良好的 Java 和 RDBMS 背景 |
| 解决方案实施复杂性 | 一般 | 很高 |
对比结论:
MPP: 商业化软件,服务更好, 查询效率和优化器更好, 价格更高,生态扩展性差,开发难度低。
hadoop 批处理方案: 开源方案, 生态扩展性好,开发难度高。对于海量数据,处理低价值密度数据更适合。
Hadoop批处理方案 和 MPP架构方案 作为数据仓库的区别的更多相关文章
- MySQL金融应用场景下跨数据中心的MGR架构方案(2)
GreatSQL社区原创内容未经授权不得随意使用,转载请联系小编并注明来源. 如何在多个数据中心部署多套MGR集群,并实现故障快速切换. 上篇文章介绍了如何在多数据中心部署多套MGR集群,并构建集群间 ...
- Hadoop生态圈-构建企业级平台安全方案
Hadoop生态圈-构建企业级平台安全方案 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 能看到这篇文章的小伙伴,估计你对大数据集群的部署对于你来说应该是手到擒来了吧.我之前分享过 ...
- MySQL双主(主主)架构方案
在企业中,数据库高可用一直是企业的重中之重,中小企业很多都是使用mysql主从方案,一主多从,读写分离等,但是单主存在单点故障,从库切换成主库需要作改动.因此,如果是双主或者多主,就会增加mysql入 ...
- MySQL数据库的优化(下)MySQL数据库的高可用架构方案
MySQL数据库的优化(下)MySQL数据库的高可用架构方案 2011-03-09 08:53 抚琴煮酒 51CTO 字号:T | T 在上一篇MySQL数据库的优化中,我们跟随笔者学习了单机MySQ ...
- 本地日志数据实时接入到hadoop集群的数据接入方案
1. 概述 本手册主要介绍了,一个将传统数据接入到Hadoop集群的数据接入方案和实施方法.供数据接入和集群运维人员参考. 1.1. 整体方案 Flume作为日志收集工具,监控一个文件目录或者一个文 ...
- 几种常见的微服务架构方案简述——ZeroC IceGrid、Spring Cloud、基于消息队列
微服务架构是当前很热门的一个概念,它不是凭空产生的,是技术发展的必然结果.虽然微服务架构没有公认的技术标准和规范草案,但业界已经有一些很有影响力的开源微服务架构平台,架构师可以根据公司的技术实力并结合 ...
- redis集群主流架构方案分析
Redis在互联网大数据平台有着广泛的应用,主要被用来缓存热点数据,避免海量请求压垮数据库,同时可以提升服务节点的响应速度和并发量.随着数据量的增多,由于redis是占用单台物理机或虚机的内存,内存资 ...
- (转)mysql数据库高可用高扩展性架构方案实施
http://shanhu.blog.51cto.com/1293405/1212605-----mysql数据库高可用高扩展性架构方案实施
- 几种常见的微服务架构方案——ZeroC IceGrid、Spring Cloud、基于消息队列、Docker Swarm
微服务架构是当前很热门的一个概念,它不是凭空产生的,是技术发展的必然结果.虽然微服务架构没有公认的技术标准和规范草案,但业界已经有一些很有影响力的开源微服务架构平台,架构师可以根据公司的技术实力并结合 ...
- mysql复制(高可用架构方案的基础)
mysql复制:把一个数据库实例上所有改变复制到另外一个数据库库服务器实例的过程特点:1.没有改变就无所谓复制 ;改变是复制的根本与数据源2.所有的改变:是指可以复制全部改变,也可以复制部分改变 可以 ...
随机推荐
- 登山(等级考试4级 测试卷 T1)
这道题目与 重启系统(等级考试4级 2021-03 T4)重启系统(等级考试4级 2021-03 T4) - 王浩泽 - 博客园 (cnblogs.com) 非常相似,于是乎呢就在这个程序上面改一改就 ...
- ChatGPT与人工智能
一.ChatGPT相关信息 1.微软新版Bing搜索引擎集成ChatGPT,访问地址:https://www.bing.com/new 2.谷歌版ChatGPT灾难级发布,市值一夜狂跌7000亿,熬夜 ...
- JAVA虚拟机09---垃圾回收---经典垃圾回收器
1.Serial收集器 1.1简介 Serial收集器是最基础.历史最悠久的收集器,曾经(在JDK 1.3.1之前)是HotSpot虚拟机新生代收集器的唯一选择 1.2使用算法 标记-复制算法 1 ...
- C# Replace:一个熟悉而又陌生的替换
前言 Replace 的作用就是,通过指定内容的替换,返回一个新字符串. 返回值中,已将当前字符串中的指定 Unicode 字符或 String 的 所有匹配项,替换为指定的新的 Unicode 字符 ...
- 2021级《JAVA语言程序设计》上机考试试题
勉强写完了 Card package Bean; public class Card { private String CardId; private String CardData; private ...
- JZOJ 4318. 【NOIP2015模拟11.5】俄罗斯套娃
题目大意 求逆序对个数小于等于 \(k\) 的排列数 解析 已经做过很多次了,经典得不能再经典的问题 注意本题很卡空间,要用滚动数组 \(Code\) #include<cstdio> u ...
- JVM相关知识学习
JVM的垃圾回收算法是什么? 分代回收算法:然后详细阐述年轻代有哪些算法,老年代有哪些算法 垃圾收集器总结: 最初使用的是Serial + Serial Old收集垃圾,最简单,因为二者都是单线程的, ...
- Java 反射概念的引入
反射是什么 学Java的人都知道类概念,反射技术就是一种控制类的技术,JAVA程序在运行时,通过反射这个技术,能动态的获取到类实例的信息.创建实体类.操作实体类. 反射的功能列表: 获取任意类的名称. ...
- Docker安装和基础命令
每个优秀的人,背后都有一段沉默的时光 前言 学习Docker基础知识 安装 docker常见的有3种安装方式,yum.rpm包.脚本. 我们采用相对简单但对各种环境比较友好的方式:(关防火墙和seli ...
- 野火STM32 ADC独立模式单通道采集实验意外
1 //about calibration 2 //ADC_ResetCalibration(ADC1); 3 //while(ADC_GetResetCalibrationStatus(ADC1) ...