未经本人同意严禁转载，徽沪一郎。

概要

在Standalone部署模式下，Spark运行过程中会创建哪些临时性目录及文件，这些临时目录和文件又是在什么时候被清理，本文将就这些问题做深入细致的解答。

从资源使用的方面来看，一个进程运行期间会利用到这四个方面的资源，分别是CPU,内存，磁盘和网络。进程退出之后，CPU，内存和网络都会由操作系统负责释放掉，但是运行过程中产生临时文件如果进程自己不在退出之前有效清除，就会留下一地鸡毛，浪费有效的存储空间。

部署时的第三方依赖

再提出具体的疑问之前，先回顾一下standalone的部署模式

在standalone下又分为client模式和cluster模式，其中client模式下，driver和client运行于同一JVM中，不由worker启动，该JVM进程直到spark application计算完成返回结果后才退出。如下图所示。

而在cluster模式下，driver由worker启动，client在确认spark application成功提交给cluster后直接退出，并不等待spark application运行结果返回。如下图所示

从部署图来进行分析，每个JVM进程在启动时的文件依赖如何得到满足。

Master进程最为简单，除了spark jar包之外，不存在第三方库依赖
Driver和Executor在运行的时候都有可能存在第三方包依赖，分开来讲
1. Driver比较简单，spark-submit在提交的时候会指定所要依赖的jar文件从哪里读取
2. Executor由worker来启动，worker需要下载Executor启动时所需要的jar文件，那么从哪里下载呢。

为了解决Executor启动时依赖的Jar问题，Driver在启动的时候要启动HttpFileServer存储第三方jar包，然后由worker从HttpFileServer来获取。为此HttpFileServer需要创建相应的目录，而Worker也需要创建相应的目录。

HttpFileServer创建目录的过程详见于SparkEnv.scala中create函数。

spark会为每一个提交的application生成一个文件夹，默认位于$SPARK_HOME/work目录下，用以存放从HttpFileServer下载下来的第三方库依赖及Executor运行时生成的日志信息。

实验1

运行spark-shell，查看在/tmp目录下会新产生哪些目录。

#$SPARK_HOME/bin/spark-shell

在/tmp目录下会新增四个与spark-shell相关的文件夹

spark+随机数目录

　　分别用于driver本身，driver创建的tmp目录，httpfileserver创建的目录

spark-local目录

　　用以存放executor执行过程中生成的shuffle output和cache的内容

运行中的临时文件

Executor在运行的时候，会生成Shuffle Output，如果对RDD进行Cache的话，还有可能会将RDD的内容吐到磁盘中。这些都意味着需要有一个文件夹来容纳这些东西。

上文中提到的形如spark-local-*的目录就是用以存储executor运行时生成的临时文件。

可以通过两个简单的实验来看spark-local-*目录下内容的变化。

实验2：不进行RDD Cache

进入spark-shell之后运行

spark-shell>sc.textFile(“README.md”).flatMap(l=>l.split(“ “)).map(w=>(w,1)).reduceByKey(_ + _).foreach(println)

上述指令会生成两个不同的Stage, 所以会有Shuffle Output，具体划分原因就不再细述了。

如果使用的是spark 1.2.x，可以看到有在spark-local-*目录下有index文件生成。

实验3: 进行RDD Cache

进入spark-shell之后运行

spark-shell>val rdd1 = sc.textFile(“README.md”).flatMap(l=>l.split(“ “)).map(w=>(w,1)).reduceByKey(_ + _)

spark-shell> rdd1.persist(MEMORY_AND_DISK_SER)

spark-shell>rdd1.foreach(println)

上述指令执行后，不仅会有index文件还会有形如rdd*的文件生成，这些rdd打头的文件就是cache内容。

配置项

可以通过在$SPARK_HOME/conf/spark-env.sh中指定配置内容来更改默认的存储位置。

SPARK_WORK_DIR 指定work目录，默认是$SPARK_HOME/work子目录

SPARK_LOCAL_DIRS 指定executor运行生成的临时文件目录，默认是/tmp，由于/tmp目录有可能是采用了tmpfs，建议在实际部署中将其更改到其它目录

文件的清理

上述过程中生成的临时文件在什么时候会被删除掉呢？

也许第一感觉就是spark application结束运行的时候呗，直觉有时不见得就是对的。

SPARK_LOCAL_DIRS下的产生的文件夹，确实会在应用程序退出的时候自动清理掉，如果观察仔细的话，还会发现在spark_local_dirs目录有有诸如*_cache和*_lock的文件，它们没有被自动清除。这是一个BUG,可以会在spark 1.3中加以更正。有关该BUG的具体描述，参考spark-4323 https://issues.apache.org/jira/browse/SPARK-4323

$SPARK_LOCAL_DIRS下的*_cache文件是为了避免同一台机器中多个executor执行同一application时多次下载第三方依赖的问题而引进的patch,详见JIRA case spark-2713. 对就的代码见spark/util/Utils.java中的fetchFile函数。https://issues.apache.org/jira/browse/SPARK-2713

如果已经在使用了，有什么办法来清除呢？暴力删除，不管三七二十一，过一段时间将已经存在的cache和lock全部删除。这不会有什么副作用，大不了executor再去下载一次罢了

find $SPARK_LOCAL_DIRS -max-depth 1 -type f -mtime 1 -exec rm -- {} \;

而SPARK_WORK_DIR目录下的形如app-timestamp-seqid的文件夹默认不会自动清除。

那么可以设置哪些选项来自动清除已经停止运行的application的文件夹呢？当然有。

在spark-env.sh中加入如下内容

SPARK_WORKER_OPTS=”-Dspark.worker.cleanup.enabled=true”

注意官方文档中说不管程序是否已经停止，都会删除文件夹，这是不准确的，只有停止掉的程序文件夹才会被删除，我已提交相应的PR.

如果Spark应用程序需要长时间运行，生成的许多shuffle output何时再清理呢？可以通过配置spark.cleaner.ttl来设置清理的时间。

实验4

写一个简单的WordCount，然后以Standalone Cluster模式提交运行，察看$SPARK_LOCAL_DIRS下文件内容的变化。

import org.apache.spark._

import org.apache.spark.{SparkConf, SparkContext}

import org.apache.spark.SparkContext._

import java.util.Date

object HelloApp {

  def main(args: Array[String]): Unit = {

    val conf = new SparkConf()

    val sc = new SparkContext()

    val fileName = "$SPARK_HOME/README.md"

    val rdd1 = sc.textFile(fileName).flatMap(l => l.split(" ")).map(w => (w, 1))

    rdd1.reduceByKey(_ + _).foreach(println)

    var i: Int = 0

    while ( i < 10 ) {

      Thread.sleep(10000)

      i = i + 1

    }

  }

}

提交运行

spark-submit –class HelloApp –master spark://127.0.0.1:7077  --deploy-mode cluster HelloApp.jar

小结

本文通过几个简单易行的实验来观测standalone模式下临时文件的产生和清除，希望有助于理解spark中磁盘资源的申请和释放过程。

Spark部署时相关的配置项比较多，如果先进行分类，然后再去配置会容易许多，分类有CPU、Memory、Network、Security、Disk及Akka相关。

参考资料

https://spark.apache.org/docs/1.2.0/submitting-applications.html
https://spark.apache.org/docs/1.2.0/spark-standalone.html
http://mail-archives.apache.org/mod_mbox/spark-commits/201410.mbox/%3C2c2ce06abc7d48d48f17f8e458a53219@git.apache.org%3E
https://issues.apache.org/jira/browse/SPARK-4323
https://issues.apache.org/jira/browse/SPARK-2713

Apache Spark技术实战之8：Standalone部署模式下的临时文件清理的更多相关文章

Apache Spark技术实战之6 --Standalone部署模式下的临时文件清理
问题导读 1.在Standalone部署模式下,Spark运行过程中会创建哪些临时性目录及文件? 2.在Standalone部署模式下分为几种模式? 3.在client模式和cluster模式下有什么 ...
Apache Spark源码走读之15 -- Standalone部署模式下的容错性分析
欢迎转载,转载请注明出处,徽沪一郎. 概要本文就standalone部署方式下的容错性问题做比较细致的分析,主要回答standalone部署方式下的包含哪些主要节点,当某一类节点出现问题时,系统是如 ...
Apache Spark技术实战之4 -- 利用Spark将json文件导入Cassandra
欢迎转载,转载请注明出处. 概要本文简要介绍如何使用spark-cassandra-connector将json文件导入到cassandra数据库,这是一个使用spark的综合性示例. 前提条件假 ...
Apache Spark技术实战之3 -- Spark Cassandra Connector的安装和使用
欢迎转载,转载请注明出处,徽沪一郎. 概要前提假设当前已经安装好如下软件 jdk sbt git scala 安装cassandra 以archlinux为例,使用如下指令来安装cassandra ...
Apache Spark技术实战之9 -- 日志级别修改
摘要在学习使用Spark的过程中,总是想对内部运行过程作深入的了解,其中DEBUG和TRACE级别的日志可以为我们提供详细和有用的信息,那么如何进行合理设置呢,不复杂但也绝不是将一个INFO换为TR ...
Apache Spark技术实战之6 -- spark-submit常见问题及其解决
除本人同意外,严禁一切转载,徽沪一郎. 概要编写了独立运行的Spark Application之后,需要将其提交到Spark Cluster中运行,一般会采用spark-submit来进行应用的提交 ...
Apache Spark技术实战之1 -- KafkaWordCount
欢迎转载,转载请注明出处,徽沪一郎. 概要 Spark应用开发实践性非常强,很多时候可能都会将时间花费在环境的搭建和运行上,如果有一个比较好的指导将会大大的缩短应用开发流程.Spark Streami ...
Apache Spark技术实战之7 -- CassandraRDD高并发数据读取实现剖析
未经本人同意,严禁转载,徽沪一郎. 概要本文就 spark-cassandra-connector 的一些实现细节进行探讨,主要集中于如何快速将大量的数据从cassandra 中读取到本地内存或磁盘 ...
Apache Spark技术实战之5 -- SparkR的安装及使用
欢迎转载,转载请注明出处,徽沪一郎. 概要根据论坛上的信息,在Sparkrelease计划中,在Spark 1.3中有将SparkR纳入到发行版的可能.本文就提前展示一下如何安装及使用SparkR. ...

随机推荐

MineCraft note
客户端:http://pan.baidu.com/s/1hqgS8sshttp://pan.baidu.com/s/1mgmkduC 材质包:R3D小地图MODCraftGuide mod 内置合成表 ...
python 多个 %s 例子
input = , ) input 为: '{"a" : 1234, "b" : "14289", "c": " ...
16进制ascii码转化为对应的字符,付ipmitool查询硬件信息
最近工作需要在用ipmitool查询服务器硬件信息.ipmitool查询硬件信息比如电源,使用命令: 获取PSU0信息:Ipmitool raw 0x3a 0x71 0x00: 获取PSU1信息:I ...
(转)Nginx SSL+tomcat集群,request.getScheme() 取到https正确的协议
转自http://www.cnblogs.com/interdrp/p/4881785.html 最近在做一个项目, 架构上使用了 Nginx +tomcat 集群, 且nginx下配置了SSL,to ...
C实现栈和队列
这两天再学习了数据结构的栈和队列,思想很简单,可能是学习PHP那会没有直接使用栈和队列,写的太少,所以用具体代码实现的时候出现了各种错误,感觉还是C语言功底不行.栈和队列不论在面试中还是笔试中都很重要 ...
安装oracle 10g 文件系统
++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++ ...
【zz】面试题之寻找丢失的数字
据传说是MS/Google等等IT名企业的面试题: 有一组数字,从1到n,中减少了一个数,顺序也被打乱,放在一个n-1的数组里请找出丢失的数字,最好能有程序,最好算法比较快 BTW1: 有很多种方法 ...
PHP运行模式
1.运行模式关于PHP目前比较常见的五大运行模式: 1)CGI(通用网关接口 / Common Gateway Interface) 2)FastCGI(常驻型CGI / Long-Live CGI ...
redis数据类型之—Hash
(1)hash 简单介绍 hash类型适合存储对象,字段值只能是字符串,不支持其他数据类型. (2)hash 常用命令 // 增加hash属性值 > hset user: name zm (in ...
SQL Server 数据库巡检脚本
--1.查看数据库版本信息 select @@version --2.查看所有数据库名称及大小 exec sp_helpdb --3.查看数据库所在机器的操作系统参数 exec master..xp_ ...

Apache Spark技术实战之8：Standalone部署模式下的临时文件清理

概要