Spark会把数据都载入到内存么

转载自：https://www.iteblog.com/archives/1648

前言：

很多初学者其实对于Spark的编程模式还是RDD这个概念理解不到位，就会产生一些误解。比如，很多时候我们常常以为一个文件是会被完整读入到内存，然后做各种变换，这很可能是受两个概念误导所致：

1.RDD的定义，RDD是一个分布式的不可变数据集合；

2.Spark是一个内存处理引擎；

如果你没有主动对RDD进行Cache/Persist等相关操作，它不过是一个概念上存在的虚拟机数据集，

你实际上是看不到这个RDD的数据的全集的（他不会真的都放在内存里）。

RDD的本质是什么

一个RDD本质上是一个函数，而RDD的变换不过是函数的嵌套，RDD我认为有两种：

1.输入RDD,典型如KafkaRDD，JdbcRDD以及HadoopRDD等

2.转换RDD,如MapPartitionsRDD

我们以下面的代码为例做分析：

sc.textFile("abc.log").map().saveAsTextFile("")

textFile中间会构建出一个HadoopRDD,然后返回了MapPartitionsRDD,map函数运行后会构建出一个MapPartitionsRDD,saveAsTextFile触发了实际流程代码的执行

所以RDD不过是对一个函数的封装，当一个函数对数据处理完成后，我们就得到一个RDD的数据集（是一个虚拟的，后续会解释）。

HadoopRDD是数据来源，每个partition负责获取数据，获得过程是通过iterator.next获得一条一条的数据，假设某个时刻拿到了一条数据A,这个A会立刻被map里的函数处理得到B(完成了转换)，然后开始写入到其他数据重复如此。所以整个过程：

1、理论上某个MapPartitionsRDD里实际在内存里的数据等于其Partition的数目，是个非常小的数值。

2、HadoopRDD则会略多些，因为属于数据源，读取文件，假设读取文件的buffer是1M，那么最多也就是partitionNum*1M数据在内存里

3、saveAsTextFile也是一样的，往HDFS写文件，需要buffer，最多数据量为buffer*partitionNum，

所以整个过程其实是流式的过程，一条数据被各个RDD所包裹的函数处理。

刚才我反复提到了嵌套函数，怎么知道他是嵌套的呢？

如果你写了这样一个代码：

sc.textFile("abc.log").map().map().........map().saveAsTextFile("")

有成千上万个map,很可能就堆栈溢出了，为啥？实际上是函数嵌套的太深了。

按照上面的逻辑，内存使用其实是非常小的，10G内存跑100T数据也不是难事。但是为什么Spark常常因为内存问题挂掉呢？我们接着往下看：

Shuffle的本质是什么

这就是为什么要分Stage了。每个Stage其实就是我上面说的那样，一套数据被N个嵌套的函数处理（也就是你的transform动作）。遇到了Shuffle,就被切开来，所谓的sHUffle，本质上是把数据按规则临时都落到磁盘上，相当于完成了一个saveAsTextFile的动作，不过是存本地磁盘。然后被切开的下一个Stage则以本地磁盘的这些数据作为数据源，重新走上面描述的流程。

我们再做一次描述：

所谓Shuffle不过是把处理流程切分，给切分的上一段（我们称为Stage M）加个存储到磁盘的动作，

把切分的下一段（Stage M+1）数据源变成Stage M存储的磁盘文件。每个Stage都可以走我上面的

描述，让每条数据都可以被N个嵌套的函数处理，最后通过用户指定的动作进行存储。

为什么Shuffle容易导致Spark挂掉

前面我们提到，Shuffle不过是偷偷的帮你加上了个类似saveAsLocalDiskFile的动作。然而，写磁盘是一个昂贵的动作。所以我们尽可能的把数据先放到内存，再批量写到文件里。还有读磁盘文件也是挺费内存的动作。把数据放内存，就有这个问题，比如10000条数据，到底会占用多少内存？这个其实很难预估的，所以一不小心，就容易导致内存溢出了，这其实也是一个很无奈的事情。

我们做Cache/Persist意味着什么

其实就是给某个Stage加上一个saveAsMemoryBlockFile的动作，然后下次再要数据的时候，就不用算了。这些存在内存的数据就表示了某个RDD处理后的结果。这个才是说为啥Spark是内存计算引擎的地方。在MR里，你要是放在HDFS里的。但Spark允许你把中间结果放在内存里。

Spark会把数据都载入到内存么的更多相关文章

Spark会把数据都载入到内存么？
前言很多初学者其实对Spark的编程模式还是RDD这个概念理解不到位,就会产生一些误解. 比如,很多时候我们常常以为一个文件是会被完整读入到内存,然后做各种变换,这很可能是受两个概念的误导: RDD ...
Spark：大数据的电花火石！
什么是Spark?可能你很多年前就使用过Spark,反正当年我四六级单词都是用的星火系列,没错,星火系列的洋名就是Spark. 当然这里说的Spark指的是Apache Spark,Apache Sp ...
Unity载入和内存管理机制
Unity几种动态载入Prefab方式的差异: 事实上存在3种载入prefab的方式: 一是静态引用,建一个public的变量,在Inspector里把prefab拉上去,用的时候instantiat ...
Spark在处理数据的时候，会将数据都加载到内存再做处理吗？
对于Spark的初学者,往往会有一个疑问:Spark(如SparkRDD.SparkSQL)在处理数据的时候,会将数据都加载到内存再做处理吗? 很显然,答案是否定的! 对该问题产生疑问的根源还是对Sp ...
[转载] Spark：大数据的“电光石火”
转载自http://www.csdn.net/article/2013-07-08/2816149 Spark已正式申请加入Apache孵化器,从灵机一闪的实验室“电火花”成长为大数据技术平台中异军突 ...
Spark调优数据倾斜
1. Spark数据倾斜问题 Spark中的数据倾斜问题主要指shuffle过程中出现的数据倾斜问题,是由于不同的key对应的数据量不同导致的不同task所处理的数据量不同的问题. 例如,reduce ...
Spark性能优化--数据倾斜调优与shuffle调优
一.数据倾斜发生的原理原理:在进行shuffle的时候,必须将各个节点上相同的key拉取到某个节点上的一个task来进行处理,比如按照key进行聚合或join等操作.此时如果某个key对应的数据量特 ...
spark完整的数据倾斜解决方案
1.数据倾斜的原理 2.数据倾斜的现象 3.数据倾斜的产生原因与定位在执行shuffle操作的时候,大家都知道,我们之前讲解过shuffle的原理. 是按照key,来进行values的数据的输出.拉 ...
Spark源码分析之九：内存管理模型
Spark是现在很流行的一个基于内存的分布式计算框架,既然是基于内存,那么自然而然的,内存的管理就是Spark存储管理的重中之重了.那么,Spark究竟采用什么样的内存管理模型呢?本文就为大家揭开Sp ...

随机推荐

“连接配置中心失败，将无法进行正常管理”--腾讯通RTX管理器
[故障现象]: 腾讯通RTX管理器提示“连接配置中心失败,将无法进行正常管理” [解决办法]: 在系统服务中启动“RTX_ConfigCenter”服务即可. 文章收集自网络
VC++ 制作一个简易的控制台时钟应用
1.下载EasyX Library for C++ (http://www.easyx.cn/) 直接下载:EasyX_20151015(beta) EasyX 绘图库目前支持 Visual C++ ...
JavaScript高级程序设计学习笔记--错误处理与调试
try-catch语句只要代码中包含finally子句,则无论try或catch语句块中包含什么代码--甚至return语句,都不会阻止finally子句的执行,来看下面这个函数: function ...
.NET LINQ数据转换
使用 LINQ 进行数据转换语言集成查询 (LINQ) 不仅可用于检索数据, 而且还是一个功能强大的数据转换工具. 通过使用 LINQ 查询,您可以将源序列用作输入,并采用多种方式修改它以 ...
（转）EClipse插件推荐
http://www.importnew.com/4707.html 来自非营利性Eclipse基金会的Eclipse IDE以其插件生态系统著称.Eclipse市场拥有海量插件可供下载,你可以通过插 ...
无法打开之前cuda的vs项目，打开之后变灰色
解决办法: 打开convolution_vs2010.vcxproj文件,将之前cuda 5.5全部改成cuda7.5. 就可以打开了.
AngularJS HTML DOM
AngularJS 为 HTML DOM 元素的属性提供了绑定应用数据的指令. ng-disabled 指令: ng-disabled 指令直接绑定应用程序数据到 HTML 的 disabled 属性 ...
kafka与传统的消息中间件对比
RabbitMQ和kafka从几个角度简单的对比业界对于消息的传递有多种方案和产品,本文就比较有代表性的两个MQ(rabbitMQ,kafka)进行阐述和做简单的对比, 在应用场景方面, Rabbi ...
Java基本数据类型与位运算
>>赋值运算符赋值使用操作符“=”.它的意思是“取右边的值(即右值),把它复制给左边(即左值)”.右值可以是任何常数.变量或者表达式 (只要它能生成一个值就行).但左值必须是一个明 ...
Delphi多线程编程--线程同步的方法（事件、互斥、信号、计时器）简介
更详细的可以参考:http://www.cnblogs.com/xumenger/p/4450659.html 或者参考之后的博客四个系统内核对象(事件.互斥.信号.计时器)都是线程同步的手段,从这 ...

Spark会把数据都载入到内存么

Spark会把数据都载入到内存么的更多相关文章

随机推荐

热门专题