Spark比MR快是因为在内存中计算？错！

MapReduce 就像一台又慢又稳的老爷车，虽然距离 MapReduce 面市到现在已经过去了十几年的时间，但它始终没有被淘汰，任由大数据技术日新月异、蓬蓬勃勃、花里胡哨地发展，这个生态圈始终有它的一席之地。

不过 Spark 的到来确实给了 MapReduce 不小的冲击，它比 MapReduce 理论上要快两个数量级，所以近几年不断有人讨论 Spark 是否可以完全替代 MapReduce ，但是为什么说是不断有人讨论呢？因为这些年 Spark 始终是无法完全取代 MapReduce 。

我们今天关注的问题是Spark为什么比 MapReduce 快？如果没有看文章的标题，你是不是会脱口而出：

“因为 Spark 是在内存中计算，而 MapReduce 是基于磁盘。”

这话乍一听没毛病，但是作为一个对技术很严谨的人，这让我忍不住想杠一下，

“那么 MapReduce 计算的时候不需要把数据加载到内存，在内存中计算吗？”

其实要对数据做计算，必然得把数据加载到内存， MapReduce 也不例外，Spark只是在计算模型和调度上做了更多的优化，不需要过多地和磁盘交互。

说到这里不得不提的就是 Spark 的 DAG（有向无环图），这个 DAG 就相当于改进版的 MapReduce，它可以说是由多个 MapReduce 组成，当数据处理流程中存在多个map和多个Reduce操作混合执行时，MapReduce只能提交多个Job执行，而Spark可以只提交一次，在一个任务中完成。

这就导致了 MapReduce 会存在多次耗时的资源申请和资源释放，另外 MapReduce 每次shuffle 操作后，必须写到磁盘，而 Spark 在 shuffle 后不一定落盘，如果Shuffle后的数据是需要反复用到的，则可以cache到内存中，方便迭代时使用，所以Spark对于需要对数据进行反复迭代的操作（比如跑机器学习算法或者有中间结果的复杂计算等）是非常友好的。

这里还有一个误区，很多人会认为 Spark 在计算时的所有过程都是在内存中完成的不用写磁盘，但是实际上不是这样的，在 shuffle 过程中 Spark 同样需要写磁盘，研究过 Sorted-Based Shuffle 的同学对这个写盘操作一定不陌生，如下图。

简单地说下，shuffle分成write和read两个阶段，write的过程不仅会写需要发向下一个Stage的数据到磁盘，还需要写一份数据的Index记录下游每个分区获取的数据范围。这里就不详细说了，有兴趣的同学可以去研究下。

另外，刚才提到了Spark尽管比MapReduce快两个数量级但是它始终没有被淘汰，这是因为它在每个阶段都落盘，虽然慢但是可以保证计算过程的稳定性，不会像Spark一样，一旦中间结果太大，内存装不下整个计算任务就崩了，这对于不讲究时效性的后台任务来说无疑是增加了维护成本，所以现在构建数据仓库的主要SQL工具还是Hive（Hive的底层是MapReduce），你见过用SparkSQL来跑数据量大的数仓任务的吗？

看完这篇，希望下次有人问你 Spark 为什么比 MapReduce 快的时候不要再说 Spark 在内存中计算了。

觉得有价值请关注 ▼

Spark比MR快是因为在内存中计算？错！的更多相关文章

JS获取对象在内存中计算后的样式
通过obj.style的方式只能取得"内联style"的值,对于<style></style>中的css属性值,则无能为力 . 我们可以用obj.curre ...
内存中OLTP（Hekaton）里的事务日志记录
在今天的文章里,我想详细讨论下内存中OLTP里的事务日志如何写入事务日志.我们都知道,对于你的内存优化表(Memory Optimized Tables),内存中OLTP提供你2个持久性(durabi ...
Spark(Python) 从内存中建立 RDD 的例子
Spark(Python) 从内存中建立 RDD 的例子: myData = ["Alice","Carlos","Frank"," ...
QList介绍（QList比QVector更快，这是由它们在内存中的存储方式决定的。QStringList是在QList的基础上针对字符串提供额外的函数。at()操作比操作符[]更快，因为它不需要深度复制）非常实用
FROM:http://apps.hi.baidu.com/share/detail/33517814 今天做项目时,需要用到QList来存储一组点.为此,我对QList类的说明进行了如下翻译. QL ...
使用spark将内存中的数据写入到hive表中
使用spark将内存中的数据写入到hive表中 hive-site.xml <?xml version="1.0" encoding="UTF-8" st ...
内存中 OLTP - 常见的工作负荷模式和迁移注意事项（二）
----------------------------我是分割线------------------------------- 本文翻译自微软白皮书<In-Memory OLTP – Comm ...
SQL Server 内存中OLTP内部机制概述（二）
----------------------------我是分割线------------------------------- 本文翻译自微软白皮书<SQL Server In-Memory ...
C/C++数据在内存中的存储方式
目录 1 内存地址 2 内存空间在学习C/C++编程语言时,免不了和内存打交道,在计算机中,我们存储有电影,文档,音乐等数据,这些数据在内存中是以什么形式存储的呢?下面做一下简单介绍. 本文是学 ...
Linux内存中Swap机制（转）
在做监控时,发现内存中有一项Swap space,不是很理解,这里查了一些资料: http://blog.sina.com.cn/s/blog_502d765f0100krph.html 在linux ...

随机推荐

用Python写了个下载快手视频的小脚本
最近又重新拾起了,对python的热情. 贴个地址: https://github.com/d1y/lovepack/blob/master/kuaishou.py 前戏说明因为我近乎癫狂的喜欢一个 ...
vsftpd 530 Login incorrect问题处理
vsftpd 530 login incorrect 的N中情况 1.密码错误. 2.检查/etc/vsftpd/vsftpd.conf配置 vim /etc/vsftpd/vsftpd.conf 看 ...
nanopi NEO2 学习笔记 3：python 安装 RPi.GPIO
如果我要用python控制NEO2的各种引脚,i2c 或 spi ,RPi.GPIO模块是个非常好的选择这个第三方模块是来自树莓派的,好像友善之臂的工程师稍作修改移植到了NEO2上,就放在 /roo ...
前端通过Blob实现文件下载
最近遇到一个需求,需要将页面中的配置信息下载下来供用户方便使用,以前这个场景的需求有时候会放到后端处理,然后给返回一个下载链接.其实并不需要这么麻烦,这样既增大了服务器的负载,也让用户产生了没有必要的 ...
vue 自动化路由实现
1.需求描述在写vue的项目中,一般情况下我们每添加一个新页面都得添加一个新路由.为此我们在项目中会专门的一个文件夹来管理路由,如下图所示那么有没有一种方案,能够实现我们在文件夹中新建了一个vue ...
java设计模式7.策略模式、模板方法模式、观察者模式
策略模式策略模式的用意,将每一个算法封装到具有共同接口的独立的类中,从而使得它们可以相互替换.策略模式使得算法可以在不影响到客户端的情况下发生变化. 环境角色:持有一个抽象策略角色的引用. 抽象策略 ...
手把手教你用深度学习做物体检测(七)：YOLOv3介绍
YOLOv3 论文:< YOLOv3: An Incremental Improvement > 地址: https://arxiv.org/pdf/1804.02767.pdfyolov ...
CF1097D Makoto and a Blackboard 质因数分解 DP
Hello 2019 D 题意: 给定一个n,每次随机把n换成它的因数,问经过k次操作,最终的结果的期望. 思路: 一个数可以表示为质数的幂次的积.所以对于这个数,我们可以分别讨论他的质因子的情况. ...
ACdream1726-A Math game+(DFS+二分）+（DFS+前缀和）
传送门官方题解:http://acdream.info/topic?tid=4246 参考:https://www.cnblogs.com/nowandforever/p/4492428.html ...
POJ 2491 Scavenger Hunt map
Scavenger Hunt Time Limit: 1000MS Memory Limit: 65536K Total Submissions: 2848 Accepted: 1553 De ...

Spark比MR快是因为在内存中计算？错！

Spark比MR快是因为在内存中计算？错！的更多相关文章

随机推荐

热门专题