Apache Spark 内存管理详解

在spark里面，内存管理有两块组成，一部分是JVM的堆内内存（on-heap memory），这部分内存是通过spark dirver参数executor-memory以及spark.executor.memory来进行指定；

另外一部分是堆外内存（off-heap memory），堆外内存默认是关闭，需要通过spark.memory.offheap.enabled以及spark.memory.offheap.size来进行开启以及设置大小；堆外内存在可以实现回收迅速（GC是周期性回收），同时扩大了JVM的可控内存。

内存管理有两类，分别是分别是executor以及storage，前者是在计算的时候shuffle等操作需要占用的内存，后者则是在RDD缓存所占用的内存空间。

内存分配有两种类型，分别是静态内存分配，和统一内存分配，这两种内存分配类型的差别就在于storage和executor连着内存的分界线，静态内存分配是executor以及storage两者内存是静态的，根据公式计算出来；统一内存管理则不具体做划分根据各自需要；如果两者都不够用，则序列化到内存中；如果某一个方内存不够，总内存还有余富，则自动扩充内存。

对于内存分配之storage域而言，主要是用于RDD的缓存，在缓存的时候可以指定存储策略；另外当RDD被cache之后，存储空间将会有不连续的空间变为连续空间，这个过程称之为unroll；这部分内存的管理是通过LinkedHashMap来进行空间管理；作为缓存，如果内存空间不够了，将会基于LRU策略进行淘汰（Eviction），对于淘汰的block如果配置缓存策略中包含磁盘策略，则会序列化到物理磁盘进行保存，这个过程称之为落盘（Drop）。

对于内存分配之executor域而言，每个Task将会分配到当前分配大小的[1/2N~1/N]（这里强调当前是因为如果分配类型是统一内存管理将会动态变化）大小的空间，executor域的内存主要是shuffle使用，这里包括了两个场景，shuffle write和shuffle read，write占用内存策略比较复杂，如果是普通排序，主要是用的堆内内存，如果是Tungsten排序，则是堆外内存结合堆内内存（如果堆外内存不够）的方式（前提是配置了对外内存）；至于排序方式是普通排序，还是Tungsten是由Spark来决定的。对于shuffle read而言，主要是用的堆内内存。

参考：

https://www.ibm.com/developerworks/cn/analytics/library/ba-cn-apache-spark-memory-management/index.html

Apache Spark 内存管理详解的更多相关文章

Apache Spark 内存管理详解（转载）
Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色.理解 Spark 内存管理的基本原理,有助于更好地开发 Spark 应用程序和进行性能调优.本文旨在梳理出 ...
spark内存管理详解
Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色.理解 Spark 内存管理的基本原理,有助于更好地开发 Spark 应用程序和进行性能调优.本文旨在梳理出 ...
动态内存管理详解：malloc/free/new/delete/brk/mmap
c++ 内存获取和释放 new/delete,new[]/delete[] c 内存获取和释放 malloc/free, calloc/realloc 上述8个函数/操作符是c/c++语言里常用来做动 ...
MemCache中的内存管理详解
MC的内存管理机制 1.内存的碎片化当我们使用C语言或者其他语言进行malloc(申请内存),free(释放内存)等类似的命令操作内存的时候, 在不断的申请和释放的过程中,形成了一些很小的内存片段, ...
转：C/C++内存管理详解堆栈
http://chenqx.github.io/2014/09/25/Cpp-Memory-Management/ 内存管理是C++最令人切齿痛恨的问题,也是C++最有争议的问题,C++高手从中获得了 ...
QF——OC内存管理详解
堆的内存管理: 我们所说的内存管理,其实就是堆的内存管理.因为栈的内存会自动回收,堆的内存需要我们手动回收. 栈中一般存储的是基本数据类型变量和指向对象的指针(对象的引用),而真实的对象存储在堆中.因 ...
Swift 内存管理详解
Swift内存管理: Swift 和 OC 用的都是ARC的内存管理机制,它们通过 ARC 可以很好的管理对象的回收,大部分的时候,程序猿无需关心 Swift 对象的回收. 注意: 只有引用类型变量所 ...
Memcached 内存管理详解
Memcached是一个高效的分布式内存cache,了解memcached的内存管理机制,便于我们理解memcached,让我们可以针对我们数据特点进行调优,让其更好的为我所用. 首先需要我们先了解两 ...
IOS内存管理详解
一. 基本原理 1. 什么是内存管理移动设备的内存极其有限,每个app所能占用的内存是有限制的当app所占用的内存较多时,系统会发出内存警告,这时得回收一些不需要再使用的内存空 ...

随机推荐

powerDesigner16x64安装步骤
PowerDesigner16x64_Evaluation安装补一下安装成功
POJ 2513 字典树+并查集+欧拉路径
Description: 给定一些木棒,木棒两端都涂上颜色,求是否能将木棒首尾相接,连成一条直线,要求不同木棒相接的一边必须是相同颜色的. 解题思路: 可以用图论中欧拉路的知识来解这道题,首先可以把木 ...
如何搭建.NET Entity Framework分布式应用系统框架
一. 前言 ADO.NET Entity Framework(以下简称EF)是微软推出的一套O/RM框架,如果用过Linq To SQL的人会比较容易理解,因为Linq To ...
[译].Net 4.5 的五项强大新特性
本文原文:Five Great .NET Framework 4.5 Features 译者:冰河魔法师目录介绍特性一:async和await 特性二:Zip压缩特性三:正则表达式执行超时特 ...
【转载】oracle索引详解
原文URL;http://www.oschina.net/question/30362_4057?fromerr=FiY27yLL 作者:crazyinsomnia 一. ROWID的概念存储了ro ...
ReentrantReadWriteLock——读读共享（一）
多个线程可以同时读,读读是异步的.非互斥的 1.Service.java(封装的方法,供线程A和B访问) package ReentrantReadWriteLock; import java.uti ...
js取的随机数
Math.round(Math.random()*1000+1) ;//取得1-1000的随即数
Linux内核分析-分析system_call中断处理过程
姓名:江军 ID:fuchen1994 分析system_call中断处理过程使用gdb跟踪分析一个系统调用内核函数(您上周选择那一个系统调用),系统调用列表参见http://codelab.shi ...
L1-030 一帮一
“一帮一学习小组”是中小学中常见的学习组织方式,老师把学习成绩靠前的学生跟学习成绩靠后的学生排在一组.本题就请你编写程序帮助老师自动完成这个分配工作,即在得到全班学生的排名后,在当前尚未分组的学生中, ...
DevExpress XtraScheduler日程管理控件应用实例（2）-- 深入理解数据存储
DevExpress年终击穿底价,单套授权低至67折!查看详情>>> 在上篇随笔<DevExpress XtraScheduler日程管理控件应用实例(1)-- 基本使用> ...

Apache Spark 内存管理详解

Apache Spark 内存管理详解的更多相关文章

随机推荐

热门专题