ContextCleaner ——Spark 应用程序的垃圾回收器
ContextCleaner是一个Spark服务,负责在应用程序范围内清除 shuffles, RDDs, broadcasts, accumulators和checkpointed RDDs,目的是减少长时间运行的数据密集型Spark应用程序的内存需求。
ContextCleaner在驱动程序上运行。 它会在SparkContext启动时被创建并立即启动(并且默认情况下spark.cleaner.referenceTracking Spark属性已启用),生命周期:当SparkContext停止时,它停止。
https://jaceklaskowski.gitbooks.io/mastering-apache-spark/content/spark-service-contextcleaner.html
开始ContextCleaner — start方法
start(): Unit
start开始清洁线程,并执行一个操作,以System.gc()每个spark.cleaner.periodicGC.interval间隔请求JVM垃圾收集器(使用)。
|
注意
|
请求JVM GC的操作是在periodicGCService执行程序服务上安排的。 |
periodicGCService 单线程执行器服务
periodicGCService是一个内部单线程执行程序服务,名称为context-cleaner-periodic-gc以请求JVM垃圾收集器。
|
注意
|
在每个spark.cleaner.periodicGC.interval间隔内调度对JVM GC的请求。 定期运行在启动时 |
注册ShuffleDependency清理— registerShuffleForCleanup方法
registerShuffleForCleanup(shuffleDependency: ShuffleDependency[_, _, _]): Unit
registerShuffleForCleanup注册ShuffleDependency进行清理。
在内部,registerShuffleForCleanup只需为input 执行registerForCleanupShuffleDependency。
|
注意
|
registerShuffleForCleanup在ShuffleDependency创建时专门使用。 |
注册对象参考以进行清理— registerForCleanup内部方法
registerForCleanup(objectForCleanup: AnyRef, task: CleanupTask): Unit
在内部,registerForCleanup将输入添加objectForCleanup到referenceBuffer内部队列。
|
注意
|
尽管AnyRef输入objectForCleanup的类型最广泛,但该类型实际上CleanupTaskWeakReference是自定义Java的java.lang.ref.WeakReference。 |
从MapOutputTrackerMaster和中删除随机播放块BlockManagerMaster — doCleanupShuffle方法
doCleanupShuffle(shuffleId: Int, blocking: Boolean): Unit
doCleanupShuffle执行洗牌清除,这是从当前MapOutputTrackerMaster和BlockManagerMaster中删除洗牌。doCleanupShuffle还通知CleanerListeners。
在内部,当执行时,您应该在日志中看到以下DEBUG消息:
DEBUG Cleaning shuffle [id]
doCleanupShuffle 注销shuffleId来自的输入MapOutputTrackerMaster。
|
注意
|
doCleanupShuffle用于SparkEnv访问当前MapOutputTracker。 |
doCleanupShuffle shuffleId从中删除输入的混洗块BlockManagerMaster。
|
注意
|
doCleanupShuffle用于SparkEnv访问当前BlockManagerMaster。 |
doCleanupShuffle通知所有注册的CleanerListener侦听器(来自listeners内部队列)输入shuffleId已清除。
最后,您应该在日志中看到以下调试消息:
DEBUG Cleaned shuffle [id]
如果发生任何异常,您应该在日志和异常本身中看到以下错误消息。
ERROR Error cleaning shuffle [id]
|
注意
|
doCleanupShuffle在ContextCleaner清理随机引用和(而有趣的)同时拟合ALSModel(在Spark MLlib中)时执行。 |
设定值
| Spark Property | 默认值 | 描述 |
|---|---|---|
|
|
|
控制触发垃圾回收的频率。 |
|
|
|
控制是否在初始化 a 时 |
|
|
|
控制清洗线程是否应阻止执行清除任务(除了shuffle以外,后者由spark.cleaner.referenceTracking.blocking.shuffle Spark属性控制)。 这是SPARK-3015 |
|
|
|
控制清洗线程是否应在随机清洗任务上阻塞。 清理混洗时,这是ContextCleaner的SPARK-3139 Akka超时的 |
|
|
|
控制如果引用超出范围,是否清理检查点文件。 |
ContextCleaner ——Spark 应用程序的垃圾回收器的更多相关文章
- [Think In Java]基础拾遗1 - 对象初始化、垃圾回收器、继承、组合、代理、接口、抽象类
目录 第一章 对象导论第二章 一切都是对象第三章 操作符第四章 控制执行流程第五章 初始化与清理第六章 访问权限控制第七章 复用类第九章 接口 第一章 对象导论 1. 对象的数据位于何处? 有两种方式 ...
- JVM 垃圾回收器工作原理及使用实例介绍(转载自IBM),直接复制粘贴,需要原文戳链接
原文 https://www.ibm.com/developerworks/cn/java/j-lo-JVMGarbageCollection/ 再插一个关于线程和进程上下文,待判断 http://b ...
- C#.Net GC(garbage Collector) 垃圾回收器
以前一直以为gc的原理很简单,也就是分代处理堆数据,直到我的膝盖中了一箭(好吧 直到有天汪涛和我说他面试携程的面试题 关于服务器和 工作站gc 的区别)其实我当时尚不知道 工作站和服务器有什么区别更不 ...
- Java垃圾回收算法和垃圾回收器
基本上 jvm内存回收有三种 基本算法 标记-清除 标记清除的算法最简单,主要是标记出来需要回收的对象,然后然后把这些对象在内存的信息清除.如何标记需要回收的对象,在上一篇文章里面已经有说明. 标记- ...
- Java GC系列(3):垃圾回收器种类
本文由 ImportNew - 好好先生 翻译自 javapapers. 目录 垃圾回收介绍 垃圾回收是如何工作的? 垃圾回收的类别 垃圾回收监视和分析 在这篇教程中我们将学习几种现有的垃圾回收器.在 ...
- JVM学习总结三——垃圾回收器
整两天再看调优分析的部分,发现实际运行环境下,还是要考虑配置垃圾回收器,所以这里就加一小章介绍一下. 首先来看一下HotSpot所支持回收期的关系图: 图中可以看到一共有7中垃圾回收器,以中间绿线为界 ...
- 面试之C#--垃圾回收器什么时候回收?
每个对象只有在该对象不存在任何引用才会被垃圾回收起回收. 可以调用静态方法System.GC.Collect()垃圾回收器,但是不建议这么做: 用using语句可以有效的自动释放掉资源. 实在没有办法 ...
- 垃圾回收器 Dispose 和 Finalize 的互补作用
假如我们程序有两个窗口 Form1.Form2; 当我们关闭一个窗口的时候,会发出一个 终止响应,并将该窗口对象送入终止队列,公共语言运行库的垃圾回收器跟踪着这个对象的生存期,此时就会调用此对象的基类 ...
- [译]Java垃圾回收器的类型
说明:这篇文章来翻译来自于Javapapers 的Types of Java Garbage Collectors 在这部分的教程中我们将讲到可使用的四种不同类型的Java垃圾回收器.垃圾回收是Jav ...
随机推荐
- 前端笔记-bom
BOM对象 BOM即浏览器对象模型,它与dom不同的是可以操作浏览器窗口,使用它的接口我们可以改变窗口,状态栏,文本,及其他与除页面以外其他动作,使得js可以和我们浏览器进行沟通 窗口 即window ...
- 看完100篇Python技术精华文章,平均涨薪30%!
一个以技术为立身根基的教育机构做出来的微信号,干货程度会有多高? 马哥Linux运维公众号运营五年,从一开始的定位就是给技术人分享加薪干货的地方.这五年里,公众号运营最重的任务就是做内容.内容并不好做 ...
- php中危险的木马函数-eval()函数
eval() 函数可将字符串转换为代码执行,并返回一个或多个值. 如果eval函数在执行时遇到错误,则抛出异常给调用者. 类似的函数是loadcode ,loadcode并不立即执行代码,而是返回一个 ...
- js事件冒泡/捕获
- TDOA 基础之 双曲线
TDOA 的算法基础就是时间差,根据时间差换算出距离差,后面的数学理论知识就是双曲线交点问题. 双曲线方程是2次方程,解算曲线交点也就是两个2次方程求解. 首先看双曲线定义(百度百科): 双曲线(Hy ...
- AcWing P173 矩阵距离 题解
Analysis 就是一个裸的广搜,每次从是1的点开始找就好啦~~~ #include<iostream> #include<cstdio> #include<cstri ...
- bzoj 1415: [Noi2005]聪聪和可可 期望dp+记忆化搜索
期望dp水题~ 你发现每一次肯定是贪心走 2 步,(只走一步的话就可能出现环) 然后令 $f[i][j]$ 表示聪在 $i$,可在 $j$,且聪先手两个人碰上面的期望最小次数. 用记忆化搜索转移就行了 ...
- P5431 【模板】乘法逆元2
洛谷题目链接 刚开始做乘法逆元还是有点懵逼的~ 以下式子都在模\(p\)意义下进行 我们把式子改一下,变成:\[\sum\limits_{i=1}^nk^i\times a_i^{-1}\] 我们先算 ...
- python对象调用父类的方法
#类定义 class People: #定义基本属性 name = '' age = 0 #定义私有属性,私有属性在类外部无法直接进行访问 __weight = 0 #定义构造方法 def __ini ...
- scrapy框架自定制命令
写好自己的爬虫项目之后,可以自己定制爬虫运行的命令. 一.单爬虫 在项目的根目录下新建一个py文件,如命名为start.py,写入如下代码: from scrapy.cmdline import ex ...