InputFormat和RecordReader

Hadoop提出了InputFormat的概念

org.apache.hadoop.mapreduce包里的InputFormat抽象类提供了如下列代码所示的两个方法

public abstract class InputFormat<K, V> {

	public abstract List<InputSplit> getSplits(JobContext context);

    RecordReader<K, V> createRecordReader(InputSplit split, TaskAttemptContext context);

}

这些方法展示了InputFormat类的两个功能:

将输入文件切分为map处理所需的split
创建RecordReader类, 它将从一个split生成键值对序列

RecordReader类同样也是org.apache.hadoop.mapreduce包里的抽象类

public abstract class RecordReader<Key, Value> implements Closeable {

	public abstract void initialize(InputSplit split, TaskAttemptContext context);

    public abstract boolean nextKeyValue() throws IOException, InterruptedException;

    public abstract Key getCurrentKey() throws IOException, InterruptedException;

    public abstract Value getCurrentValue() throws IOException, InterruptedException;

    public abstract float getProgress() throws IOException, InterruptedException;;

    public abstract close() throws IOException;

}

为每个split创建一个RecordReader实例,该实例调用getNextKeyValue并返回一个布尔值

组合使用InputFormat和RecordReader可以将任何类型的输入数据转换为MapReduce所需的键值对

InputFormat

Hadoop在org.apache.hadoop.mapreduce.lib.input包里提供了一些InputFormat的实现,有如下.

FileInputFormat: 这是一个抽象基类,可以作为任何基于文本输入的父类
SequenceFileInputFormat: 这是一个高效的二进制文件格式
TextInputFormat: 它用于普通文本文件

InputFormat并不局限于从文件读取数据

RecordReader

Hadoop在org.apache.hadoop.mapreduce.lib.input包里也提供了一些常见的RecordReader实现

LineRecordReader: 这是RecordReader类对文本文件的默认实现,它将行号时为键并将该行内容视为值
SequenceFileRecordReader: 该类从二进制文件SequenceFile读取键值

OutputFormat和RecordWriter

org.apache.hadoop.mapreduce包里的OutputFormat和RecordWriter的子类负责共同写入作业输出

如果指定的输出路径已经存在,则会导致作业失败,如果想改变这种情况,需要一个重写该方法的OutputFormat子类.

OutputFormat

org.apache.hadoop.mapreduce.output包提供了下列OutputFormat类.

FileOutputFormat: 这是所有基于文件的OutputFormat的基类
NullOutputFormat: 这是一个虚拟类,它丢弃所有输出并对文件不做任何写入
SequenceFileOutputFormat: 它将输出写入二进制SequenceFile
TextOutputFormat: 它吧输出写入到普通文本文件

上述类把他们所需的RecordWriter定义为内部类,因此不存在单独实现的RecordWriter类

Sequence files

org.apache.hadoop.io包里的SequenceFile类提供了高效的二进制文件格式,他经常用于MapReduce作业的输出,尤其是当作业的输出被当做另一个作业的输入时.Sequence文件有如下优点.

作为二进制文件,它们本质上比文本文件更为紧凑
他们支持不同层面的可选压缩,也就是说,可以对每条记录或整个split进行压缩
该文件可被并行切分处理

大多数二进制文件是无法被切分的,必须以单独的线性数据流形式读取,使用这种无法切分的文件作为MapReduce作业的输入,意味着需要使用一个单独的mapper处理整个文件,造成潜在的巨大性能损失

Hadoop权威指南: InputFormat,RecordReader,OutputFormat和RecordWriter的更多相关文章

Hadoop权威指南:HDFS-Hadoop存档
Hadoop权威指南:HDFS-Hadoop存档 [TOC] 每个文件按块方式存储, 每个块的元数据存储在namenode的内存中 Hadoop存档文件或HAR文件是一个更高效的文件存档工具,它将文件 ...
Hadoop权威指南(中文版，第2版)【分享】
下载地址 Hadoop权威指南(中文版,第2版) http://download.csdn.net/download/u011000529/5726789 (友情提示:请点击右下的 “联通下载” 或者 ...
Hadoop权威指南学习笔记二
MapReduce简单介绍声明:本文是本人基于Hadoop权威指南学习的一些个人理解和笔记,仅供学习參考,有什么不到之处还望指出,一起学习一起进步. 转载请注明:http://blog.csdn.n ...
基于python的《Hadoop权威指南》一书中气象数据下载和map reduce化数据处理及其可视化
文档内容: 1:下载<hadoop权威指南>中的气象数据 2:对下载的气象数据归档整理并读取数据 3:对气象数据进行map reduce进行处理关键词:<Hadoop权威指南> ...
Hadoop权威指南:MapReduce应用开发
Hadoop权威指南:MapReduce应用开发 [TOC] 一般流程编写map函数和reduce函数编写驱动程序运行作业用于配置的API Hadoop中的组件是通过Hadoop自己的配置API ...
Hadoop权威指南:通过FileSystem API读取数据
Hadoop权威指南:通过FileSystem API读取数据 [TOC] 在Hadoop中,FileSystem是一个通用的文件系统API 获取FileSystem实例的几个静态方法 public ...
Hadoop权威指南:从Hadoop URL读取数据
[TOC] Hadoop权威指南:从Hadoop URL读取数据使用java.net.URL对象从Hadoop文件系统读取文件实现类似linux中cat命令的程序文件名 HDFSCat.java ...
Hadoop权威指南:压缩
Hadoop权威指南:压缩 [TOC] 文件压缩的两个好处: 减少储存文件所需要的磁盘空间加速数据在网络和磁盘上的传输压缩格式总结: 压缩格式工具算法文件扩展名是否可切分 DEFLATE ...
Hadoop权威指南:数据完整性
Hadoop权威指南:数据完整性 [TOC] 常用的错误检测码是CRC-32(循环冗余校验) HDFS的数据完整性 HDFS会对写入的所有数据计算校验和,并在读取数据时验证校验和 datanode负责 ...

随机推荐

javascript svg 页面 loading
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
php 访问对象的属性（当属性的键名称为数字时）的方法 {}
这篇文章下面写了一个将数组转化成对象的方法, 这个数组的键为数字(即数组为索引数组), 访问对象的时候, $obj->1 显然错位,那到底该怎么样访问对象的数字属性呢? $obj->{ ...
怎样让一个div高度自适应浏览器高度
原文:http://www.jb51.net/web/79171.html 原文:http://zhidao.baidu.com/link?url=oId1sFRhiBnV37-RmRE6WQNHxi ...
使用SQLServer2005插入一条数据时返回当前插入数据的ID
使用SQLServer2005插入一条数据时返回当前插入数据的ID 在执行完插入后再执行 select @@identity from users 就OK 就是刚才插入的那行的 ID了补充: @@ ...
SpringMVC轻松学习-SpringMVC介绍（一）
Spring MVC 背景介绍 Spring 框架提供了构建 Web 应用程序的全功能 MVC 模块.使用 Spring 可插入的 MVC 架构,可以选择是使用内置的 Spring Web 框架还是 ...
df换行问题的设置
df是linux下用来查磁盘空间的命令,而在使用了LVM分区或网络挂载的情况下,再用df取分区的使用率时,发现有些分区显示换行了,这样会导致通过脚本取的数据不对. [root@ ]# df -h Fi ...
CentOS 6.X x64 编译安装 Countly
CentOS 6.X x64 编译安装Countly 安装所需的软件 yum -y install supervisor ImageMagick sendmail 1. 安装 node.js wge ...
Java设计模式遵循的七大原则
最近几年来,人们踊跃的提倡和使用设计模式,其根本原因就是为了实现代码的复用性,增加代码的可维护性.设计模式的实现遵循了一些原则,从而达到代码的复用性及增加可维护性的目的,设计模式对理解面向对象的三大特 ...
关于IP选项
源:关于IP选项校验和算法
ucos移植指南
指定堆栈数据类型(宽度) typedef unsigned int OS_STK; 指定Ucos移植方法3中保存cpu状态寄存器的变量的宽度 typedef unsigned int OS_CPU_S ...

Hadoop权威指南: InputFormat,RecordReader,OutputFormat和RecordWriter