本文旨在解析 spark on Yarn 的内存管理,使得 spark 调优思路更加清晰

内存相关参数

spark 是基于内存的计算,spark 调优大部分是针对内存的,了解 spark 内存参数有也助于我们理解 spark 内存管理

  • spark.driver.memory:默认 512M
  • spark.executor.memory:默认 512M
  • spark.yarn.am.memory:默认 512M
  • spark.yarn.driver.memoryOverhead:driver memory * 0.10, with minimum of 384
  • spark.yarn.executor.memoryOverhead:executor memory * 0.10, with minimum of 384
  • spark.yarn.am.memoryOverhead:am memory * 0.10, with minimum of 384
  • executor-cores:executor 相当于一个进程,cores 相当于该进程里的线程

内存解析

spark.xxx.memory / --xxx-memory 是 JVM 堆区域,但是 JVM 本身也会占用一定的堆空间,这部分由 spark.yarn.xxx.memoryOverhead 确定,二者关系如下图

内存分配

为了更好的利用 spark 内存,通常我们需要在 Yarn 集群中设置如下参数  【非必须】

<property>
<name>yarn.nodemanager.resource.memory-mb</name>
<value>106496</value> <!-- 104G -->
</property>
<property>
<name>yarn.scheduler.minimum-allocation-mb</name>
<value>2048</value>
</property>
<property>
<name>yarn.scheduler.maximum-allocation-mb</name>
<value>106496</value>
</property>
<property>
<name>yarn.app.mapreduce.am.resource.mb</name>
<value>2048</value>
</property>
  • yarn.app.mapreduce.am.resource.mb:am 能申请的最大内存
  • yarn.nodemanager.resource.memory-mb:nodemanager 能申请的最大内存
  • yarn.scheduler.minimum-allocation-mb:任务调度时一个 container 可申请的最小内存
  • yarn.scheduler.maximum-allocation-mb:任务调度时一个 container 可申请的最大内存

yarn.scheduler.minimum-allocation-mb 是 Container 的内存基本单位,也就是说 Container 的内存必须是 yarn.scheduler.minimum-allocation-mb 的整数倍,

比如 yarn.scheduler.minimum-allocation-mb 设置为 2G,2048M,

如果内存申请为 512M,512+384<2048M,会被分配 2G 内存,

如果内存申请为 3G,3072+384=3456M<4096M,会被分配 4G 内存,

如果申请内存为 6G,6144+614=6758<8192M,会被分配 8G 内存,          【max(6144*0.1, 384)=614】

所以当设定 --executor-memory 为 3G 时,Container 实际内存并非 3G

常见问题

常见的问题无非就是 内存不足 或者 container 被杀死

常规思路

1. 第一解决办法就是增加总内存    【此法不能解决所有问题】

2. 其次考虑数据倾斜问题,因为数据倾斜导致某个 task 内存不足,其它 task 内存足够

  // 最简单的方法是 repartition    【此法不能解决所有问题】

3. 考虑增加每个 task 的可用内存

  // 减少 Executor 数

  // 减少 executor-cores 数

参数设置注意事项

executor-memory

1. 设置过大,会导致 GC 过程很长,64G 是推荐的 内存上限  【根据硬件不同,可寻找合适的上限】

2. 设置过小,会导致 GC 频繁,影响效率

executor-cores

1. 设置过大,并行度会很高,容易导致 网络带宽占满,特别是从 HDFS 读取数据,或者是 collect 数据回传 Driver

2. 设置过大,使得多个 core 之间争夺 GC 时间以及资源,导致大部分时间花在 GC 上

参考资料:

https://www.cnblogs.com/saratearing/p/5813403.html#top

https://blog.csdn.net/pearl8899/article/details/80368018

https://www.so.com/s?q=with+minimum+of+384&src=se_zoned

https://blog.cloudera.com/how-to-tune-your-apache-spark-jobs-part-2/  英文博客

spark调优篇-Spark ON Yarn 内存管理(汇总)的更多相关文章

  1. spark调优篇-spark on yarn web UI

    spark on yarn 的执行过程在 yarn RM 上无法直接查看,即 http://192.168.10.10:8088,这对于调试程序很不方便,所以需要手动配置 配置方法 1. 配置 spa ...

  2. 【翻译】Spark 调优 (Tuning Spark) 中文版

    由于Spark自己的调优guidance已经覆盖了很多很有价值的点,因此这里直接翻译一份过来.也作为一个积累. Spark 调优 (Tuning Spark) 由于大多数Spark计算任务是在内存中运 ...

  3. spark调优篇-oom 优化(汇总)

    spark 之所以需要调优,一是代码执行效率低,二是经常 OOM 内存溢出 内存溢出无非两点: 1. Driver 内存不够 2. Executor 内存不够 Driver 内存不够无非两点: 1. ...

  4. Android性能调优篇之探索JVM内存分配

    开篇废话 今天我们一起来学习JVM的内存分配,主要目的是为我们Android内存优化打下基础. 一直在想以什么样的方式来呈现这个知识点才能让我们易于理解,最终决定使用方法为:图解+源代码分析. 欢迎访 ...

  5. spark调优篇-数据倾斜(汇总)

    数据倾斜 为什么会数据倾斜 spark 中的数据倾斜并不是说原始数据存在倾斜,原始数据都是一个一个的 block,大小都一样,不存在数据倾斜: 而是指 shuffle 过程中产生的数据倾斜,由于不同的 ...

  6. Android性能调优篇之探索垃圾回收机制

    开篇废话 如果我们想要进行内存优化的工作,还是需要了解一下,但这一块的知识属于纯理论的,有可能看起来会有点枯燥,我尽量把这一篇的内容按照一定的逻辑来走一遍.首先,我们为什么要学习垃圾回收的机制,我大概 ...

  7. 【Spark篇】---Spark调优之代码调优,数据本地化调优,内存调优,SparkShuffle调优,Executor的堆外内存调优

    一.前述 Spark中调优大致分为以下几种 ,代码调优,数据本地化,内存调优,SparkShuffle调优,调节Executor的堆外内存. 二.具体    1.代码调优 1.避免创建重复的RDD,尽 ...

  8. (转)Spark性能优化:资源调优篇

      在开发完Spark作业之后,就该为作业配置合适的资源了.Spark的资源参数,基本都可以在spark-submit命令中作为参数设置.很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何 ...

  9. 【转载】 Spark性能优化:资源调优篇

    在开发完Spark作业之后,就该为作业配置合适的资源了.Spark的资源参数,基本都可以在spark-submit命令中作为参数设置.很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置 ...

随机推荐

  1. Ocelot 网关 和 consul 服务发现

    服务发现 Consul 一.安装和启动 下载 [Consul](https://www.consul.io/downloads.html) 下载完成后,解压,只有一个consul.exe,把目录添加到 ...

  2. 手写alert弹框(一)

    采用原生的JavaScript, html代码 <meta name="viewport" content="width=device-width, initial ...

  3. iOS开发 Error: CGImageProviderCreate: invalid image provider size

    一般可拉伸的图片(俗称点9图片)会放到images.xcassets目录里,然后对图片进行Slicing,但是当对一张图片进行slicing的left和right都是0的话,在iOS7.0上运行会出现 ...

  4. iptables 查看对应规则及端口号

    iptables -L -n --line-number

  5. mysql数据库学习二

    最近又复习了mysql中的一些概念:视图,触发器,存储过程,函数,事务,记录下. 1.视图 视图是一个虚拟表,本身并不存储数据,当sql在操作视图时所有数据都是从其他表中查出来的,因此其本质是:根据S ...

  6. UML期末复习题——2.2:UML Activity Diagram.

    第二题:活动图 重要概念: 活动图:一种有助于使工作流和业务过程可视化的图. 绘制要点: 具体方法见:http://www.cnblogs.com/xiaolongbao-lzh/p/4591953. ...

  7. Android:cmake开发指南

    一.静态库与动态库构建 (.so)共享库,shared object:节省空间,在运行时去连接,如果执行机器上没有这些库文件就不能执行. (.a)静态库,archive:静态库和程序化为一体,不会分开 ...

  8. kotlin中对象表达式

    在kotlin中,也有类似的功能,但不是匿名类,而是对象,需要使用object关键字,对象要继承的列需要与object之间的冒号(:)分隔. fun main(arg: Array<String ...

  9. osg help

    #ifdef _WIN32#include <Windows.h>#endif // _WIN32 #include <osgViewer/Viewer>#include &l ...

  10. github上有对应官方的各种模型

    https://github.com/tensorflow/models/blob/master/research/object_detection/g3doc/detection_model_zoo ...