Spark 2.x 在作业完成时却花费很长时间结束

使用 Apache Spark 2.x 的时候可能会遇到这种现象：虽然 Spark Jobs 已经全部完成了，但是程序却还在执行。比如我们使用 Spark SQL 去执行一些 SQL，这个 SQL 在最后生成了大量的文件。然后我们可以看到，这个 SQL 所有的 Spark Jobs 其实已经运行完成了，但是这个查询语句还在运行。通过日志，我们可以看到 driver 节点正在一个一个地将 tasks 生成的文件移动到最终表的目录下面，当我们作业生成的文件很多的情况下，就很容易产生这种现象。本文将给大家介绍一种方法来解决这个问题。、

Spark 2.x 用到了 Hadoop 2.x，其将生成的文件保存到 HDFS 的时候，最后会调用了 saveAsHadoopFile，而这个函数在里面用到了 FileOutputCommitter，如下：

def saveAsHadoopFile(

      path: String,

      keyClass: Class[_],

      valueClass: Class[_],

      outputFormatClass: Class[_ <: OutputFormat[_, _]],

      conf: JobConf = new JobConf(self.context.hadoopConfiguration),

      codec: Option[Class[_ <: CompressionCodec]] = None): Unit = self.withScope {

    ........

    // Use configured output committer if already set

    if (conf.getOutputCommitter == null) {

      hadoopConf.setOutputCommitter(classOf[FileOutputCommitter])

    }

    ........

}

问题就出在了 Hadoop 2.x 的 FileOutputCommitter 实现，FileOutputCommitter 里面有两个值得注意的方法：commitTask 和 commitJob。在 Hadoop 2.x 的FileOutputCommitter 实现里面，mapreduce.fileoutputcommitter.algorithm.version 参数控制着 commitTask 和 commitJob 的工作方式。具体代码如下：

public void commitTask(TaskAttemptContext context, Path taskAttemptPath)

    throws IOException {

     ........

    if (taskAttemptDirStatus != null) {

      if (algorithmVersion == 1) {

        Path committedTaskPath = getCommittedTaskPath(context);

        if (fs.exists(committedTaskPath)) {

           if (!fs.delete(committedTaskPath, true)) {

             throw new IOException("Could not delete " + committedTaskPath);

           }

        }

        if (!fs.rename(taskAttemptPath, committedTaskPath)) {

          throw new IOException("Could not rename " + taskAttemptPath + " to "

              + committedTaskPath);

        }

        LOG.info("Saved output of task '" + attemptId + "' to " +

            committedTaskPath);

      } else {

        // directly merge everything from taskAttemptPath to output directory

        mergePaths(fs, taskAttemptDirStatus, outputPath);

        LOG.info("Saved output of task '" + attemptId + "' to " +

            outputPath);

      }

    } else {

      LOG.warn("No Output found for " + attemptId);

    }

  } else {

    LOG.warn("Output Path is null in commitTask()");

  }

}

public void commitJob(JobContext context) throws IOException {

      ........

      jobCommitNotFinished = false;

     ........

}

protected void commitJobInternal(JobContext context) throws IOException {

    ........

    if (algorithmVersion == 1) {

      for (FileStatus stat: getAllCommittedTaskPaths(context)) {

        mergePaths(fs, stat, finalOutput);

      }

    }

   ........

}

大家可以看到 commitTask 方法里面，有个条件判断 algorithmVersion == 1，这个就是 mapreduce.fileoutputcommitter.algorithm.version 参数的值，默认为1；如果这个参数为1，那么在 Task 完成的时候，是将 Task 临时生成的数据移到 task 的对应目录下，然后再在 commitJob 的时候移到最终作业输出目录，而这个参数,在 Hadoop 2.x 的默认值就是 1！这也就是为什么我们看到 job 完成了，但是程序还在移动数据，从而导致整个作业尚未完成，而且最后是由 Spark 的 Driver 执行 commitJob 函数的，所以执行的慢也是有到底的。

而我们可以看到，如果我们将 mapreduce.fileoutputcommitter.algorithm.version 参数的值设置为 2，那么在 commitTask 执行的时候，就会调用 mergePaths 方法直接将 Task 生成的数据从 Task 临时目录移动到程序最后生成目录。而在执行 commitJob 的时候，直接就不用移动数据了，自然会比默认的值要快很多。

注意，其实在 Hadoop 2.7.0 之前版本，我们可以将 mapreduce.fileoutputcommitter.algorithm.version 参数设置为非1的值就可以实现这个目的，因为程序里面并没有限制这个值一定为2,。不过到了 Hadoop 2.7.0，mapreduce.fileoutputcommitter.algorithm.version 参数的值必须为1或2。

问题已经找到了，我们可以在程序里面解决这个问题。有以下几种方法：

直接在 conf/spark-defaults.conf 里面设置 spark.hadoop.mapreduce.fileoutputcommitter.algorithm.version 2，这个是全局影响的。
直接在 Spark 程序里面设置，spark.conf.set("mapreduce.fileoutputcommitter.algorithm.version", "2")，这个是作业级别的。
如果你是使用 Dataset API 写数据到 HDFS，那么你可以这么设置 dataset.write.option("mapreduce.fileoutputcommitter.algorithm.version", "2")。

不过如果你的 Hadoop 版本为 3.x，mapreduce.fileoutputcommitter.algorithm.version 参数的默认值已经设置为2了

因为这个参数对性能有一些影响，所以到了 Spark 2.2.0，这个参数已经记录在 Spark 配置文档里面了 configuration.html

Spark 2.x 在作业完成时却花费很长时间结束的更多相关文章

Fragment放置后台很久（Home键退出很长时间），返回时出现Fragment重叠解决方案
后来在google查到相关资料,原因是:当Fragment长久不使用,系统进行回收,FragmentActivity调用onSaveInstanceState保存Fragment对象.很长时间后,再次 ...
Git Compare with base，比较大文件时，长时间等待，无法加载
问题当使用Git比较一个大文件(几十兆数量级)版本见差异时,会一直等待加载,且内存消耗很大,导致其他进程很难执行.任务管理器中,可以看到此时的TortoiseGitMerge吃掉3G左右的内存. 原 ...
Spark学习之路（五）—— Spark运行模式与作业提交
一.作业提交 1.1 spark-submit Spark所有模式均使用spark-submit命令提交作业,其格式如下: ./bin/spark-submit \ --class <main- ...
Spark 系列（五）—— Spark 运行模式与作业提交
一.作业提交 1.1 spark-submit Spark 所有模式均使用 spark-submit 命令提交作业,其格式如下: ./bin/spark-submit \ --class <ma ...
入门大数据---Spark部署模式与作业提交
一.作业提交 1.1 spark-submit Spark 所有模式均使用 spark-submit 命令提交作业,其格式如下: ./bin/spark-submit \ --class <ma ...
导入spark程序的maven依赖包时，无法导入，报错Unable to import maven project: See logs for details
问题:导入spark程序的maven依赖包时,无法导入,且报错:0:23 Unable to import maven project: See logs for details 2019-08-23 ...
Spark为什么只有在调用action时才会触发任务执行呢（附算子优化和使用示例）？
Spark算子主要划分为两类:transformation和action,并且只有action算子触发的时候才会真正执行任务.还记得之前的文章<Spark RDD详解>中提到,Spark ...
jquery.datetimepicker.js 当鼠标离开时，不选中当前时间，以达到清空的目的
validateOnBlur:true 当鼠标离开时,不选中当前时间,以达到清空的目的使用方法: // 时间设置 $('#BankProduct_sale_begin'). ...
SpringBoot项目启动时链接数据库很慢
SpringBoot项目启动时链接数据库很慢 springboot项目在启动时候,如下图所示,链接数据库很慢解决方法:在mysql 的配置文件中配置 skip-name-resolve

随机推荐

python中提取位图信息（AttributeError: module 'struct' has no attribute 'unstack'）
前言今天这篇博文有点意思,它是从一个例子出发,从而体现出在编程中的种种细节和一些知识点的运用.和从前一样,我是人,离成神还有几十万里,所以无可避免的出现不严谨的地方甚至错误,请酌情阅读. 0x00 ...
十 Restful风格
1 restful风格化,url上的参数通过{}点符绑定,RequestMapping("item/{id}") 2 点位符参数名与方法参数名不一致时,通过@PathVariabl ...
C#中as用法---转载
转载 jiang13824690 发布于2018-07-24 11:19:00 阅读数 3302 收藏展开在程序中,进行类型转换时常见的事,C#支持基本的强制类型转换方法,例如 Object o ...
java并发AtomicIntegerFieldUpdater
java并发AtomicIntegerFieldUpdater 支持对象的成员变量原子操作类由AtomicIntegerFieldUpdater,AtomicLongFieldUpdater, Ato ...
js 实现循环遍历数组
for in循环遍历 let arr = [1, 2, 3, 4, 4, 3], str = '' for (const val in arr) { str += val + ' ' } consol ...
Intel推出两款新处理器路线图公布
10月份Intel会推出两款新处理器,一个是酷睿i9-9900KS,全核5GHz处理器,还有就是Cascade Lake-X系列的HEDT旗舰,今年的处理器布局大概就是这样了. 与AMD承诺每年发布一 ...
input文件类型上传，或者作为参数拼接的时候注意的问题！
1.ajax请求参数如果为文本类型,直接拼接即可.如果为file类型就需要先获取文件信息 2.获取文件信息: HTML代码: <div class="form-group"& ...
logj4.xml
<?xml version="1.0" encoding="UTF-8"?> <!DOCTYPE log4j:configuration PU ...
Java面向对象之类、接口、多态
Java面向对象之类.接口.多态类 class Person { // 实例属性 int age; String name; // 类属性 static int v = 1; // 构造器 publ ...
VS 右键属性闪一下啥也打不开问题
unity项目,从vs项目右键属性闪一下啥也打不开的问题这个是因为工程是unity管理的,里面有个插件默认设定不可查看修改属性修改:vs中打开“工程”->"选项"中(修改后这 ...

Spark 2.x 在作业完成时却花费很长时间结束

Spark 2.x 在作业完成时却花费很长时间结束的更多相关文章

随机推荐

热门专题