Hadoop OutputCommitter

1. OutputCommitters

MapReduce使用一个提交协议来确保作业（job）和任务（task）都完全成功或失败。这个通过 OutputCommiter来实现。

新版本 MapReduce API中，OutputCommitter 由OutputFormat 通过getOutputCommitter() 方法确定。默认为FileOutputCommitter，适用于有文件输出的MapReduce任务。若是需要，也可以实现一个新的OutputCommitter类，以对作业的完成或任务做自定义设置或清理。

OutputCommiter 部分源码如下：

public abstract class OutputCommitter extends org.apache.hadoop.mapreduce.OutputCommitter {
     public OutputCommitter() {
     }

     public abstract void setupJob(JobContext var1) throws IOException;

     /** @deprecated */
     @Deprecated
     public void cleanupJob(JobContext jobContext) throws IOException {
     }

     public void commitJob(JobContext jobContext) throws IOException {
         this.cleanupJob(jobContext);
     }

     public void abortJob(JobContext jobContext, int status) throws IOException {
         this.cleanupJob(jobContext);
     }

     public abstract void setupTask(TaskAttemptContext var1) throws IOException;

     public abstract boolean needsTaskCommit(TaskAttemptContext var1) throws IOException;

     public abstract void commitTask(TaskAttemptContext var1) throws IOException;

     public abstract void abortTask(TaskAttemptContext var1) throws IOException;

其中 setupJob在作业运行前被调用，用于初始化操作。当OutputCommitter 被设置为 FileOutputCommitter时，它会创建最终的输出目录${mapreduce.output.fileoutputformat.outputdir}，并为任务的输出创建一个临时文件夹 _temporary，作为最终输出目录的子目录。

FileOutputCommitter 中setupJob() 方法源码如下：

public void setupJob(JobContext context) throws IOException {
     if (this.hasOutputPath()) {
         Path jobAttemptPath = this.getJobAttemptPath(context);
         FileSystem fs = jobAttemptPath.getFileSystem(context.getConfiguration());
         if (!fs.mkdirs(jobAttemptPath)) {
             LOG.error("Mkdirs failed to create " + jobAttemptPath);
         }
     } else {
         LOG.warn("Output Path is null in setupJob()");
     }

 }

其中 jobAttemptPath 由 getJobAttemptPath(context) 获取，一层层往下查看此方法调用，最终可以看到FileOutputCommitter 创建的临时目录为：目标输出目录下的_temporary 子目录：

private static Path getPendingJobAttemptsPath(Path out) {
     return new Path(out, "_temporary");
 }

如果作业成功，则调用 commitJob() 方法。此方法会做临时文件的清理（cleanupJob()），并在最终输出目录中创建名为_SUCCESS的文件，表示Job成功执行完成。若是Job 执行失败，则被状态对象调用abortJob()，默认会调用 cleanupJob() 的方法，对临时文件进行清理。

以上提到的是Job 级别的Committer。在 Task级别，同样也有上述几种方法：

public abstract void setupTask(TaskAttemptContext var1) throws IOException;

 public abstract boolean needsTaskCommit(TaskAttemptContext var1) throws IOException;

 public abstract void commitTask(TaskAttemptContext var1) throws IOException;

 public abstract void abortTask(TaskAttemptContext var1) throws IOException;

其中，在 task 执行之前会调用 setupTask()，但是默认并不做任何工作。因为创建临时任务的输出路径的工作已经在setupJob() 阶段完成。方法needsTaskCommit返回是否需要task 执行提交阶段。提交阶段的工作为：将临时目录下的输出（若有）移动到最终目录。若设置为 false，则执行框架不会为任务运行分布式提交协议，也就不会执行commitTask() 或 abortTask()。当此task没有写任何输出时，FileOutputCommitter会跳过 commit （提交）阶段。

如果task成功执行，并且有输出，则会调用commitTask() 方法，（默认的实现为）将临时目录下的输出文件移动到最终目录（mapreduce.output.fileoutputformat.outputdir）。若是执行失败，则调用abortTask()，删除任务输出的临时目录及文件。

执行框架会保证一个task在有多次尝试的情况下，仅有一个task会被提交。

2. mapreduce.fileoutputcommitter.algorithm.version 1 与 2 的区别

FileOutputCommitter 有两个方法，commitTask 和 commitJob。Apache Spark 2.0 以及更高版本使用的是 Apache Hadoop 2。

Apache Hadoop 2 使用 mapreduce.fileoutputcommitter.algorithm.version 控制 commitTask 和 commitJob 如何工作。

在 Hadoop 2 中，默认的值是 1。在这种情况下，commitTask 会将 task 的输出文件从 task 的临时目录移动到 job 的临时目录下。

在所有 task 任务完成后，commitJob 将生成的数据从 job 的临时目录移动到最终的 job 目录下。这个工作在 spark 中由 driver 完成。

若是使用的是云存储（如 s3），则这个操作会消耗较长时间。会看到所有 task 已结束，但是任务仍未结束。

在设置 mapreduce.fileoutputcommitter.algorithm.version 的值为 2 后，commitTask 会将 task 生成的输出文件从 task 临时目录直接移动到 job 的最终目录。

此时，commitJob 基本无操作。

References:

[1] hadoop权威指南第4版

[2] https://docs.databricks.com/spark/latest/faq/append-slow-with-spark-2.0.0.html

Hadoop OutputCommitter的更多相关文章

hadoop 2.7.3本地环境运行官方wordcount
hadoop 2.7.3本地环境运行官方wordcount 基本环境: 系统:win7 虚机环境:virtualBox 虚机:centos 7 hadoop版本:2.7.3 本次先以独立模式(本地模式 ...
Hadoop官方文档翻译——MapReduce Tutorial
MapReduce Tutorial(个人指导) Purpose(目的) Prerequisites(必备条件) Overview(综述) Inputs and Outputs(输入输出) MapRe ...
hadoop MapReduce Yarn运行机制
原 Hadoop MapReduce 框架的问题原hadoop的MapReduce框架图从上图中可以清楚的看出原 MapReduce 程序的流程及设计思路: 首先用户程序 (JobClient) ...
Hadoop学习笔记： MapReduce Java编程简介
概述本文主要基于Hadoop 1.0.0后推出的新Java API为例介绍MapReduce的Java编程模型.新旧API主要区别在于新API(org.apache.hadoop.mapreduce ...
更快、更强——解析Hadoop新一代MapReduce框架Yarn（CSDN）
摘要:本文介绍了Hadoop 自0.23.0版本后新的MapReduce框架(Yarn)原理.优势.运作机制和配置方法等:着重介绍新的Yarn框架相对于原框架的差异及改进. 编者按:对于业界的大数据存 ...
Hadoop之TaskInputOutputContext类
在MapReduce过程中,每一个Job都会被分成若干个task,然后再进行处理.那么Hadoop是怎么将Job分成若干个task,并对其进行跟踪处理的呢?今天我们来看一个*Context类——Tas ...
Hadoop基础教程之高级编程
从前面的学习中,我们了解到了MapReduce整个过程需要经过以下几个步骤: 1.输入(input):将输入数据分成一个个split,并将split进一步拆成<key, value>. 2 ...
Hadoop学习笔记(7) ——高级编程
Hadoop学习笔记(7) ——高级编程从前面的学习中,我们了解到了MapReduce整个过程需要经过以下几个步骤: 1.输入(input):将输入数据分成一个个split,并将split进一步拆成 ...
OutputFormat中OutputCommitter解析
在hadoop中,由于一个Task可能由多个节点同时运行,当每个节点完成Task时,一个Task可能会出现多个结果,为了避免这种情况的出现,使用了OutPutCommitter.所以OutPutCom ...

随机推荐

XML CDATA识别“<,>”
http://www.w3school.com.cn/xml/xml_cdata.asp 术语 CDATA 指的是不应由 XML 解析器进行解析的文本数据(Unparsed Character Dat ...
FB面经 Prepare: Even Tree
You are given a tree (a simple connected graph with no cycles). The tree has nodes numbered from to ...
Hadoop集群故障诊断
集群故障诊断通行方法:1.cloudera manager 监控和管理软件本身出问题了(没有任何数据),集群还是好的,业务还在正常跑:2.监控软件是好的,从监控里发现了很多问题,如CPU飙高.内存飙高 ...
Pyenv部署
一.Git克隆方式 1.安装git yum -y install git 2.克隆pyenv到本地 git clone https://github.com/pyenv/pyenv.git ~/.py ...
平衡树-Splay
#include<iostream> #include<cstdio> #include<cmath> #include<algorithm> #def ...
Windows上IOCP Socket事件模型管理
1.IOCP 2.使用IOCP 1)创建完成端口CreateIoCompletionPort: 2)向完成端口添加管理句柄与管理用户数据: 3)异步发送一个管理的事件请求: 4)开启工作线程来处理I ...
【函数参数】什么是*args和**kwargs？
**args表示任何多个无名参数,它是一个tuple,Python将**args从开始到结束作为一个tuple传入函数 **kwargs表示关键字参数,它是一个dict,Python将**kwargs ...
android 开发设计模式---Builder模式
我们通过一个例子来引出Builder模式.假设有一个Person类,我们通过该Person类来构建一大批人,这个Person类里有很多属性,最常见的比如name,age,weight,height等等 ...
C#-----类DateTime的常用方法
1.TryParse(string s, out DateTime result) 将日期和时间的指定字符串表示形式转换为其 System.DateTime 等效项,并返回一个指示转换是否成功的 ...
使用StringEscapeUtils转义、反转义字符串
使用commmons-lang.jar中的字符串转义工具类org.apache.commons.lang.StringEscapeUtils转义.反转义字符串,支持CSV.HTML.JAVA.Java ...

Hadoop OutputCommitter

Hadoop OutputCommitter的更多相关文章

随机推荐

热门专题