【Spark调优】内存模型与参数调优

wwcom123 2024-10-11 06:17:39 原文

【Spark内存模型】

Spark在一个executor中的内存分为3块：storage内存、execution内存、other内存。

　　1. storage内存：存储broadcast，cache，persist数据的地方。

　　2. execution内存：执行内存，join、aggregate、map等shuffle中间结果都缓存在这部分内存中，满了再写入磁盘，能够减少IO。其实map过程也是在这个内存中执行的。

　　3. other内存：程序代码执行时预留给自己的内存。

　　其中，execution和storage是Spark的Executor中内存的占用大户，other占用内存相对少很多。

【spark1.6.0之前版本】

　　spark1.6.0之前版本，execution和storage的内存分配是独立配置的，使用的参数配置分别是：

spark.storage.memoryFraction：storage内存占Executor总内存比例，default 0.6。

spark.shuffle.memoryFraction：execution内存占Executor总内存比例，default 0.2。

　　spark1.6.0之前版本，上述两块内存是互相隔离的，无法空闲借用。这就导致了Executor的内存利用率不高，而且需要根据Application的具体情况，使用者自己来调节这两个参数优化Spark的内存使用。

【spark1.6.0及之后版本】

　　spark1.6.0及之后版本，execution内存和storage内存支持合并配置，使用的参数配置分别是：

spark.memory.fraction：“execution内存+storage内存” 占Executor总内存比例，default 0.75。

spark.memory.storageFraction：storage内存默认占Executor总内存比例，default 0.5，如果运行时不够用，且execution内存有空闲，可以借用execution内存。

execution内存和storage内存可以相互借用，提高了内存的Spark中内存的使用率，同时也减少了OOM的情况。

【其他】

1.spark.memory.useLegacyMode：默认值是false，也就是使用上述spark1.6.0及之后版本新的内存管理模型，推荐使用。如果非要想用老的spark1.6.0之前版本老的内存管理模型，配置为true。

2.如果发现task由于频繁的gc导致运行缓慢（通过spark web ui可以观察到作业的gc耗时），意味着task执行用户代码的内存，也就是上述other内存不够用，尝试调低execution和storage内存看看。

【Spark调优】内存模型与参数调优的更多相关文章

JVM内存模型及参数调优
堆.栈.方法区概念区别 1.堆堆内存用于存放由new创建的对象和数组.在堆中分配的内存,由java虚拟机自动垃圾回收器来管理.根据垃圾回收机制的不同, Java堆有可能拥有不同的结构,最为常见的就是 ...
JVM内存模型与性能调优
堆内存(Heap) 堆是由Java虚拟机(JVM,下文提到的JVM特指Sun hotspot JVM)用来存放Java类.对象和静态成员的内存空间,Java程序中创建的所有对象都在堆中分配空间,堆只用 ...
JVM内存结构、参数调优和内存泄露分析
1. JVM内存区域和参数配置 1.1 JVM内存结构 Java堆(Heap) Java堆是被所有线程共享的一块内存区域,在虚拟机启动时创建.此内存区域的唯一目的就是存放对象实例,几乎所有的对象实例都 ...
XGBoost模型的参数调优
XGBoost算法在实际运行的过程中,可以通过以下要点进行参数调优: (1)添加正则项: 在模型参数中添加正则项,或加大正则项的惩罚力度,即通过调整加权参数,从而避免模型出现过拟合的情况. (2)控制 ...
【深度学习篇】--神经网络中的调优一，超参数调优和Early_Stopping
一.前述调优对于模型训练速度,准确率方面至关重要,所以本文对神经网络中的调优做一个总结. 二.神经网络超参数调优 1.适当调整隐藏层数对于许多问题,你可以开始只用一个隐藏层,就可以获得不错的结果,比 ...
hive 调优（二）参数调优汇总
在hive调优(一) 中说了一些常见的调优,但是觉得参数涉及不多,补充如下 1.设置合理solt数 mapred.tasktracker.map.tasks.maximum 每个tasktracker ...
记录JVM内存模型，参数含义和优化
一.JVM内存模型 (图片来自网络) 根据Java虚拟机规范,JVM将内存划分为: New(年轻代) Tenured(年老代) Perm (永久代) 其中New和Tenured属于堆内存,堆内存会从J ...
【Spark调优】提交job资源参数调优
[场景] Spark提交作业job的时候要指定该job可以使用的CPU.内存等资源参数,生产环境中,任务资源分配不足会导致该job执行中断.失败等问题,所以对Spark的job资源参数分配调优非常重要 ...
【Spark调优】Shuffle原理理解与参数调优
[生产实践经验] 生产实践中的切身体会是:影响Spark性能的大BOSS就是shuffle,抓住并解决shuffle这个主要原因,事半功倍. [Shuffle原理学习笔记] 1.未经优化的HashSh ...

随机推荐

PS教程：大神教你用PS制作《大鱼海棠》海报
本来做的是一千左右像素的,但最后粗心让我存成500几px的了,可能会有点不清楚,唉,忙活这莫久竟然不敌最后一步的粗心呀教程有千千万,但跟着作就好像是以前幼儿园老师拿着你的手写字,你可 ...
Java 调用执行其他语言的程序
以 Java 调用 Python 为例 1. 使用 Runtime 类该方式简单,但是增加了 Java 对python 的依赖,需要事先安装python,及python程序依赖的第三方库 Runti ...
Unity Button事件的简洁处理
看到很多人依然还是通过最原始的方法给button绑定事件并处理,这种通过Find往子集一个个的查找,获取到后再绑定事件这种操作很费事,有些人则是对查找对象写了个方法自动往子集遍历更方便获取对象,但还是 ...
关于微信小程序切换获取不到元素的问题
1.由于公司要实现微信小程序的自动化,所以开始学习python + appium 实现微信小程序自动化.在学习过程中遇到在切换webview后获取不到页面元素的问题,导致无法继续.今天在网上看到一篇关 ...
修改oracle的字符集操作方法
cmd环境下进行以下命令行的操作--连接sqlplus / as sysdba--命令行shutdown immediate; startup mount ALTER SYSTEM ENABLE RE ...
【微信小程序】模仿58同城页面制作以及动态数据加载
完成动态数据的加载,如下使用上班的空余时间慢慢的学习,相信总有一天我会很熟悉的掌握这门技术. 本次学习小总结: 微信小程序使用的代码基本与HTML.CSS.JS等前段有关知识一样. 微信小程序js使 ...
JB的IDE可视化MongoDB、MySQL数据库信息
一.问题: 在使用JB的IDE的时候(pycharm.IDEA等)可视化mysql和mongodb的数据库信息,效果如下 MySQL: MongoDB: 可视化数据表关系: 二.方法: 1.MySQ ...
MFC中添加控制台输出
可以在CWinApp的InitInstance()中调用下面的函数,以生成控制台: #include <io.h> #include <fcntl.h> void InitCo ...
CUDA 计算线程索引的一般公式
CUDA thread index: int blockId = blockIdx.z * (gridDim.x*gridDim.y) + blockIdx.y ...
当padding/margin的取值形式为百分比时。。。。。
一个基础却又容易混淆的css知识点:当margin/padding取形式为百分比的值时,无论是left/right,还是top/bottom,都是以父元素的width为参照物的!也许你会说,left/ ...