一、OutputFormat

OutputFormat描述的是MapReduce的输出格式，它主要的任务是：

1.验证job输出格式的有效性，如：检查输出的目录是否存在。

2.通过实现RecordWriter，将输出的结果写到文件系统的文件中。

OutputFormat的主要是由三个抽象方法组成，下面根据源代码介绍每个方法的功能，源代码详解如下：

 public abstract class OutputFormat<K, V> {

   /**

    * Get the {@link RecordWriter} for the given task.

    *  得到给定任务的K-V对，即RecordWriter。

    * @param context the information about the current task.

    * @return a {@link RecordWriter} to write the output for the job.

    * @throws IOException

    */

   public abstract RecordWriter<K, V> getRecordWriter(TaskAttemptContext context)

           throws IOException, InterruptedException;

   /**

    * Check for validity of the output-specification for the job.

    * 为job检查输出格式的有效性。

    * <p>This is to validate the output specification for the job when it is

    * a job is submitted.  Typically checks that it does not already exist,

    * throwing an exception when it already exists, so that output is not

    * overwritten.</p>

    * 这里，当job被提交时验证输出格式。实际上检查输出目录是否已经存在，当存在时抛出exception。

    * 以至于原来的输出不会被覆盖。

    * @param context information about the job

    * @throws IOException when output should not be attempted

    */

   public abstract void checkOutputSpecs(JobContext context) throws IOException, InterruptedException;

   /**

    * Get the output committer for this output format. This is responsible

    * for ensuring the output is committed correctly.

    * 获得一个OutPutCommitter对象。这是用来确保输出被正确的提交。

    * @param context the task context

    * @return an output committer

    * @throws IOException

    * @throws InterruptedException

    */

   public abstract OutputCommitter getOutputCommitter(TaskAttemptContext context)

           throws IOException, InterruptedException;

 }

Hadoop中OutputFormat解析的更多相关文章

Hadoop 中疑问解析
Hadoop 中疑问解析 FAQ问题剖析一.HDFS 文件备份与数据安全性分析1 HDFS 原理分析1.1 Hdfs master/slave模型 hdfs采用的是master/slave模型,一个 ...
hadoop中OutputFormat 接口的设计与实现
OutputFormat 主要用于描述输出数据的格式,它能够将用户提供的 key/value 对写入特定格式的文件中. 本文将介绍 Hadoop 如何设计 OutputFormat 接口 , 以及一些 ...
Hadoop中Partition解析
1.解析Partition Map的结果,会通过partition分发到Reducer上,Reducer做完Reduce操作后,通过OutputFormat,进行输出,下面我们就来分析参与这个过程的类 ...
Hadoop中常用的InputFormat、OutputFormat（转）
Hadoop中的Map Reduce框架依赖InputFormat提供数据,依赖OutputFormat输出数据,每一个Map Reduce程序都离不开它们.Hadoop提供了一系列InputForm ...
Hadoop中Yarnrunner里面submit Job以及AM生成至Job处理过程源码解析
参考 http://blog.csdn.net/caodaoxi/article/details/12970993 Hadoop中Yarnrunner里面submit Job以及AM生成至Job处理 ...
OutputFormat中OutputCommitter解析
在hadoop中,由于一个Task可能由多个节点同时运行,当每个节点完成Task时,一个Task可能会出现多个结果,为了避免这种情况的出现,使用了OutPutCommitter.所以OutPutCom ...
用shell获得hadoop中mapreduce任务运行结果的状态
在近期的工作中,我需要用脚本来运行mapreduce,并且要判断运行的结果,根据结果来做下一步的动作. 开始我想到shell中获得上一条命令运行结果的方法,即判断"$?"的值 if ...
hadoop中实现java网络爬虫
这一篇网络爬虫的实现就要联系上大数据了.在前两篇java实现网络爬虫和heritrix实现网络爬虫的基础上,这一次是要完整的做一次数据的收集.数据上传.数据分析.数据结果读取.数据可视化. 需要用到 ...
hadoop中InputFormat 接口的设计与实现
InputFormat 主要用于描述输入数据的格式, 它提供以下两个功能.❑数据切分:按照某个策略将输入数据切分成若干个 split, 以便确定 Map Task 个数以及对应的 split.❑为 M ...

随机推荐

Google不做坏事吗？
说中国足球为什么冲不出亚洲,那是因为咱中国人太文气,足球是种“斗牛士”式的游戏,得玩的有点儿“野蛮”色彩.记得以前在英国的时候,遇上联赛,晚上大街小巷全民皆兵,曼切斯特队的粉丝在街道一边酒吧里,利物浦 ...
Windows下gcc以及Qt的DLL文件调用之总结（三种方法）
DLL与LIB的区别 :1.DLL是一个完整程序,其已经经过链接,即不存在同名引用,且有导出表,与导入表lib是一个代码集(也叫函数集)他没有链接,所以lib有冗余,当两个lib相链接时地址会重新建立 ...
Android LayoutInflater.inflate()的参数及其用法
很多人在网上问LayoutInflater类的用法,以及inflate()方法参数的含义,现解释如下: inflate()的作用就是将一个用xml定义的布局文件查找出来,注意与findViewById ...
java抓取动态生成的网页
最近在做项目的时候有一个需求:从网页面抓取数据,要求是首先抓取整个网页的html源码(后期更新要使用到).刚开始一看这个简单,然后就稀里哗啦的敲起了代码(在这之前使用过Hadoop平台的分布式爬虫框架 ...
BZOJ 2844 albus就是要第一个出场（高斯消元）
题目链接:http://61.187.179.132/JudgeOnline/problem.php?id=2844 题意: 给出一个长度为n的正整数数列A.每次选出A的一个子集进行抑或(空集抑或值为 ...
error: dst ref refs/heads/zhCN_v0.13.1 receives from more than one src.
http://segmentfault.com/q/1010000000257571 想要把本地的分支推送到远端 git push chucklu zhCN_v0.13.1 zhCN_v0.13.1 ...
我的MYSQL学习心得
我的MYSQL学习心得(一) 简单语法我的MYSQL学习心得(二) 数据类型宽度我的MYSQL学习心得(三) 查看字段长度我的MYSQL学习心得(四) 数据类型我的MYSQL学习心得(五) 运 ...
linux中改变文件权限和属性
Linux中,默认显示所有用户名的文件在/etc/passwd,用户组的信息在/etc/group 密码/etc/shadow chgrp改变文件所属用户组 chgrp [-R] 用户组名文件或目录 ...
iOS开发：视图生命周期
iOS应用的视图状态分为以下几种在viewcontroller的父类UIViewController中可以看到如下代码,通过重写不同的方法对操作视图渲染. @available(iOS 2.0, * ...
UVA 820 Internet Bandwidth 因特网宽带（无向图，最大流，常规）
题意:给一个无向图,每条边上都有容量的限制,要求求出给定起点和终点的最大流. 思路:每条无向边就得拆成2条,每条还得有反向边,所以共4条.源点汇点已经给出,所以不用建了.直接在图上跑最大流就可以了. ...

Hadoop中OutputFormat解析

一、OutputFormat

Hadoop中OutputFormat解析的更多相关文章

随机推荐

热门专题