spark和 mapreduce的比较

网上查阅一些资料，收集整理如下：

1、 通用性

spark更加通用，spark提供了transformation和action这两大类的多个功能api，另外还有流式处理sparkstreaming模块、图计算GraphX等等；mapreduce只提供了map和reduce两种操作，流计算以及其他模块的支持比较缺乏。

2、 内存利用和磁盘开销

MapReduce的设计：中间结果需要写磁盘，Reduce写HDFS，多个MR之间通过HDFS交换数据，，可以提高可靠性，减少内存占用，但是牺牲了性能。

Spark默认把结果写到内存， Spark的DAGScheduler相当于一个改进版的MapReduce，如果计算不涉及与其他节点进行数据交换，Spark可以在内存中一次性完成这些操作，也就是中间结果无须落盘，减少了磁盘IO的操作。（但是，如果计算过程中涉及数据交换，Spark也是会把shuffle的数据写磁盘的！！！），还有一方面就是对shuffle操作的优化，spark提供Cache机制来支持需要反复迭代计算或者多次数据共享，减少中间文件的生成，减少数据读取的IO开销。另外DAG相比MapReduce在大多数情况下可以减少shuffle次数。

3、 任务调度

mapreduce任务调度和启动开销大;

spark线程池模型减少task启动开销

4、排序

Spark 避免不必要的排序操作，由于mapreduce会对数据进行排序，所以reduce操作必须等到文件全部生成并进行排序之后才可以进行。spark不是这种自动排序，因此可以生成一点，刷新ShuffleMapTask缓冲区到文件中，然后直接进行reduce。

Hadoop MapReduce是sort-based,进入combine()和reduce()的records必须先sort,这样的好处在于combine/reduce()可以处理大规模的数据,因为其输入数据可以通过外排得到(mapper对每段数据先做排序, reducer的shuffle对排好序的每段数据做归并) 。目前的Spark默认选择的是hash-based,通常使用 HashMap来对shuffle来的数据进行aggregate,不会对数据进行提前排序。如果用户需要经过排序的数据,那么需要自己调用类似sortByKey()的操作。

5、迭代

mapreduce不适合迭代计算(如机器学习、图计算等)，交互式处理(数据挖掘) 和流式处理(点击日志分析)，其中间结果需要落地，需要保存到磁盘，这样必然会有磁盘io操做，影响性能。

spark把运算的中间数据存放在内存，迭代计算效率更高，更适合做需要反复迭代的计算

mapreduce一个job里，只有一对M与R，而spark的一个job里可以有多个M多个R。mapreduce需要好多个job来完成的spark一个job就完成了，而且spark的除了shuffle算子需要落盘，其他的都不需要，省去了io开销。

6、 错误恢复机制

Spark的错误恢复机制在很多场景会比MR的错误恢复机制的代价低，这也是性能提升的一个点。

spark容错性高，它通过弹性分布式数据集RDD来实现高效容错，RDD是一组分布式的存储在节点内存中的只读性质的数据集，这些集合是弹性的，某一部分丢失或者出错，可以通过整个数据集的计算流程的血缘关系来实现重建；mapreduce的话容错可能只能重新计算了，成本较高。

另外spark提供cache机制，当步骤1-10中第10步计算失败，假如第九步进行了缓存，那么就可以不需要重新计算直接取缓存了。

7、 复杂性

spark框架和生态更为复杂，首先有RDD、血缘lineage（保存了RDD的依赖关系）、执行时的有向无环图DAG、stage划分等等，很多时候spark作业都需要根据不同业务场景的需要进行调优已达到性能要求；

mapreduce框架及其生态相对较为简单，对性能的要求也相对较弱，但是运行较为稳定，适合长期后台运行。

总结，spark生态更为丰富，功能更为强大、性能更佳，适用范围更广；mapreduce更简单、稳定性好、适合离线海量数据挖掘计算。

spark和 mapreduce的比较的更多相关文章

Alluxio增强Spark和MapReduce存储能力
Alluxio的前身为Tachyon.Alluxio是一个基于内存的分布式文件系统:Alluxio以内存为中心设计,他处在诸如Amazon S3. Apache HDFS 或 OpenStack Sw ...
Spark 颠覆 MapReduce 保持的排序记录
在过去几年,Apache Spark的採用以惊人的速度添加着,通常被作为MapReduce后继,能够支撑数千节点规模的集群部署. 在内存中数据处理上,Apache Spark比MapReduce更加 ...
详解MapReduce（Spark和MapReduce对比铺垫篇）
本来笔者是不打算写MapReduce的,但是考虑到目前很多公司还都在用这个计算引擎,以及后续要讲的Hive原生支持的计算引擎也是MapReduce,并且为Spark和MapReduce的对比做铺垫,笔 ...
重要 | Spark和MapReduce的对比，不仅仅是计算模型？
[前言:笔者将分上下篇文章进行阐述Spark和MapReduce的对比,首篇侧重于"宏观"上的对比,更多的是笔者总结的针对"相对于MapReduce我们为什么选择Spar ...
Spark 与 MapReduce的区别
学习参考自 http://spark-internals.books.yourtion.com/markdown/4-shuffleDetails.html 1. Shuffle read 边 fe ...
spark VS mapreduce
Apache Spark,一个内存数据处理的框架,现在是一个顶级Apache项目. 这是Spark迈向稳定的重要一步,因为它越来越多地在下一代大数据应用中取代MapReduce. MapReduce是 ...
spark与mapreduce的区别
spark是通过借鉴Hadoop mapreduce发展而来,继承了其分布式并行计算的优点,并改进了mapreduce明显的缺陷,具体表现在以下几方面: 1.spark把中间计算结果存放在内存中,减少 ...
Spark之MapReduce原理
参考http://www.cnblogs.com/wuyudong/p/mapreduce-principle.html MapReduce 我们来拆开看: Mapping(映射)对集合里的每个目 ...
spark和mapreduce的区别
spark和mapreduced 的区别map的时候处理的时候要落地磁盘每一步都会落地磁盘 reduced端去拉去的话基于磁盘的迭代spark是直接再内存中进行处理 dag 执行引擎是一个job的 ...

随机推荐

2019.4.22 python_Flag
想了很久最后觉得还是对编程的知识点好好重新的拉一边回炉重造并不可笑虽然从C到java到php到python 有两年的时间了但是很多知识点都是零零碎碎,没有花时间复习和记录所以决定从pyth ...
PHP pa和ma
<?php class Mouse { private $color; public $sex; public function __construct($role){ switch($role ...
第六版PMBOK中工具与技术的介绍：数据收集数据分析数据表现
数据收集技术: 1.头脑风暴:收集关于项目方法的创意和解决方案.2.焦点小组:召集预定的相关方和主题专家,了解他们对所讨论的产品服务或成果的期望和态度.主持人引导大家互动式讨论.3.访谈:通过与相关方 ...
Oier们的幸运数字
题目描述 JerryC对数字痴迷到了一种非正常的境界.每天JerryC都有喜欢的一些数字.第 iii 天JerryC就喜欢Ai−BiA_i-B_iAi−Bi中的数字.但是他觉得这样并不是很有趣,于 ...
对新手严重不友好的强者——Nginx那些俯拾皆是的坑
1.if和后边的括号要隔一个空格,变量后面也要有空格. 2.location / 和location = / 的意味不一样.前面的是通用匹配,后面的匹配根节点访问请求,前面的使用不好很容易引发重定向过 ...
std::wstring
std::wstring主要用于 UTF-16编码的字符, std::string主要用于存储单字节的字符( ASCII字符集 ),但是也可以用来保存UTF-8编码的字符. UTF-8和UTF-16是 ...
python深拷贝与浅拷贝的区别
可变对象:一个对象在不改变其所指向的地址的前提下,可以修改其所指向的地址中的值不可变对象:一个对象所指向的地址上值是不能修改的,如果你修改了这个对象的值,那么它指向的地址就改变了,相当于你把这个对象 ...
SpringBoot 开发案例之参数传递的正确姿势
前言开发这么多年,肯定还有不少小伙伴搞不清各种类型的参数是如何传递的,很多同学都是拿来即用,复制粘贴一把撸,遇到问题还是一脸懵逼. 姿势学习参数传递的正确姿势,先说怎么做,再说为什么,本质上还是复 ...
SpringBoot项目集成socketIo实现实时推送
netty-socketio maven依赖 <dependency> <groupId>com.corundumstudio.socketio</groupId> ...
用node实现发送邮箱验证码
首先,你需要注册一个支持发送的邮箱,我注册是网易邮箱,然后配置smtp. 然后,创建一个node项目,输入npm install nodemailer --save安装邮件依赖. 接着创建一个文件(s ...

spark和 mapreduce的比较

spark和 mapreduce的比较的更多相关文章

随机推荐

热门专题