Hadoop之TaskInputOutputContext类

在MapReduce过程中，每一个Job都会被分成若干个task，然后再进行处理。那么Hadoop是怎么将Job分成若干个task，并对其进行跟踪处理的呢？今天我们来看一个*Context类——TaskInputOutputContext。

先来看看TaskInputOutputContext的类图：

Figure1：TaskInputOutputContext类图

从类图中可以看到，TaskInputOutputContext有3个成员变量和10个成员函数。成员变量中有一个OutputCommitter对象，一个RecordWriter对象和一个StatusReporter对象。OutputCommitter到底是做什么的呢？来看看它的类图：

Figure2：OutputCommitter类图

其实OutputCommitter类中方法以将它的功能描述得很清楚:

setupJob：Hadoop初始化时设置job的输出；

commitJob：当job完成时，清除job的输出，这个方法在反馈回来的job状态为SUCCEEDED时调用；

cleanupJob：job结束后清除job的输出；

abortJob：当job的返回状态是FAILED或KILLED时，执行该函数，用于终止作业的输出；

setupTask：设置task的输出；

needsTaskCommit：检测task是否需要提交；

commitTask：将task的输出移到作业的输出目录；

abortTask：取消task的输出；

outputCommitter类的作用就是提供Job和Task的临时文件管理功能，setupJob在系统初始化时在输出路径下创建一个临时目录，MapReduce过程中产生的临时文件会被放在这里，等Job完成后，系统会调用cleanupJob删除这个目录。

再来看看下一个类——RecordWriter。RecordWriter的功能很简单，它提供一个write方法来输出<key, value>对，一个close方法来关闭输出。它有一个对应的类——RecordReader，我们在《Hadoop -- MapReduce过程》中分析过。RecordReader将输入的数据切片并转化成<key, value>对，该<key, value>对作为Mapper的输入。

StatusReporter类我们《Hadoop -- MapReduce过程（2）》中已分析过，这里就不多讲了。

我们回到TaskInputOutputContext类上来，从类图中的方法我们可以看出，TaskInputOutputContext主要是用于获取key，value的值和输出<key, value>对。什么操作需要用到key/value呢？当然是Mapper和Reducer。因此TaskInputOutputContext是作为一个父类，被MapContext和ReduceContext继承。我们再来看看它们之间的关系：

Figure3：TaskInpuOutputContext类与MapContext类、ReduceContext类关系图

MapContext读取输入数据并将其分片，输出<key, value>对，ReduceContext读取map输出，迭代计数，最后输出<key, value>对。

Hadoop之TaskInputOutputContext类的更多相关文章

Hadoop之TaskAttemptContext类和TaskAttemptID类
先来看看TaskAttemptContext的类图 : Figure1:TaskAttemptContext类图用户向Hadoop提交Job(作业),Job在JobTracker对象的控制下执行.J ...
hadoop中Text类与 java中String类的区别
hadoop 中的Text类与java中的String类感觉上用法是相似的,但两者在编码格式和访问方式上还是有些差别的,要说明这个问题,首先得了解几个概念: 字符集: 是一个系统支持的所有抽象字符的 ...
Hadoop中Writable类之四
1.定制Writable类型 Hadoop中有一套Writable实现,例如:IntWritable.Text等,但是,有时候可能并不能满足自己的需求,这个时候,就需要自己定制Writable类型. ...
Hadoop中Writable类之三
1.BytesWritable <1>定义 ByteWritable是对二进制数据组的封装.它的序列化格式为一个用于指定后面数据字节数的整数域(4个字节),后跟字节本身. 举个例子,假如有 ...
Hadoop中Writable类之二
1.ASCII.Unicode.UFT-8 在看Text类型的时候,里面出现了上面三种编码,先看看这三种编码: ASCII是基于拉丁字母的一套电脑编码系统.它主要用于显示现代英语和其他西欧语言.它是现 ...
hadoop之mapper类妙用
1. Mapper类首先 Mapper类有四个方法: (1) protected void setup(Context context) (2) Protected void map(KEYIN k ...
Hadoop中Writable类
1.Writable简单介绍在前面的博客中,经常出现IntWritable,ByteWritable.....光从字面上,就可以看出,给人的感觉是基本数据类型和序列化!在Hadoop中自带的or ...
琐碎-关于hadoop的GenericOptionsParser类
GenericOptionsParser 命令行解析器是hadoop框架中解析命令行参数的基本类.它能够辨别一些标准的命令行参数,能够使应用程序轻易地指定namenode,jobtracker,以及 ...
hadoop的两类配置文件及3种启动/关闭方式
hadoop配置文件默认配置文件:四个模块相对应的jar包中:$HADOOP_HOME/share/hadoop *core-default.xml *hdfs-defa ...

随机推荐

iOS面试题01
1.#import和#include.@class有什么区别?#import<>和#import“”又有什么区别? 答:1.#import和#include都能完整地包含某个文件的内容,# ...
[转]Altium Designer 发现的机密
转载自CrazyBingo博客. 进入电子设个世界,PCB是少不了的东西,刚开始画板子的时候,感觉好神奇.那个时候用的是Altium Designer Summer 08 ,现在用的是Altium D ...
NSUserDefaults 可以保存哪些类型
NSData NSString NSNumber NSDate NSArray NSDictionary *如果你想保存其他类型,如UIImage,你应该进行编码(即archive),或者将它转换为N ...
SDUT2165：Crack Mathmen（快速幂）
题目:http://acm.sdut.edu.cn/sdutoj/showproblem.php?pid=2165&cid=1431 快速幂. #include <iostream> ...
dojo使用笔记: 自定义ConfirmDialog
前言: dojo1.10已经有了原生的ConfirmDialog 做gui应用开发,肯定要用到"确认"对话框, 无论是winForm, swing,还是web,也不管理你用什么技术 ...
nsstring打印结构体
// // main.m // 09-常用结构体 // // Created by apple on 14-3-20. // Copyright (c) 2014年 apple. All ri ...
python加密模块学习
1. md5模块 md5.new([arg]) 返回一个md5对象,如果给出参数,则相当于调用了update(arg) md5.update(arg) 用string参数arg更新md5对 ...
OTG 接口烧写最小Linux的方法
通过该方式可以烧写Android4.0.3 系统和Linux-QT 系统. 需要准备一根OTG 线,绝大多数智能手机和PC 机相连接的线都是OTG线,都是通用的. 这种方式比TF卡烧写方式要快一些,我 ...
主机OS重装的节点加回RAC集群步骤示例（11gR2 RAC）
原文地址: https://blogs.oracle.com/Database4CN/entry/%E4%B8%BB%E6%9C%BAos%E9%87%8D%E8%A3%85%E7%9A%84%E8% ...
JAVA类加载机制详解
“代码编译的结果从本地机器码转变为字节码,是存储格式发展的一小步,却是变成语言发展的一大步”,这句话出自<深入理解JAVA虚拟机>一书,后面关于jvm的系列文章主要都是参考这本书. JAV ...

Hadoop之TaskInputOutputContext类

Hadoop之TaskInputOutputContext类的更多相关文章

随机推荐

热门专题