Hadoop InputFormat详解

InputFormat是MapReduce编程模型包括5个可编程组件之一，其余4个是Mapper、Partitioner、Reducer和OutputFormat。

新版Hadoop InputFormat是一个抽象类，之前的InputFormat是一个接口。

InputFormat类有两个抽象方法。

方法getSplits将输入数据切分成InputSlits，InputSplits的个数即为map tasks的个数，InputSplits的大小默认为块大小，即64M
public abstract List<InputSplit> getSplits(JobContext context) throws IOException, InterruptedException;

方法createRecordReader将每个InputSplit解析成RecordReader, 再依次将RecordReader解析成<K,V>对 
public abstract RecordReader<K,V> createRecordReader(InputSplit split,TaskAttemptContext context) throws IOException,InterruptedException;

也就是说InputFormat完成以下工作：

InputFile --> InputSplits --> RecordReader --> <K,V>

FileInputFormat类的getSplits方法实现了文件切分。

InputFormat的子类，其中TextInputFormat便是最常用的，它的<K,V>就代表<行偏移,该行内容>

自己实现的一个RecordReader

package tokenize.inputformat;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.FSDataInputStream;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.InputSplit;

import org.apache.hadoop.mapreduce.RecordReader;

import org.apache.hadoop.mapreduce.TaskAttemptContext;

import org.apache.hadoop.mapreduce.lib.input.CombineFileSplit;

public class MyRecordReader extends RecordReader<Text, Text> {

    private CombineFileSplit combineFileSplit; // 当前处理的分片

    private int totalLength;                   // 分片包含的文件数量

    private int currentIndex;                  // 当前处理的文件索引

    private float currentProgress = 0;         // 当前的进度

    private Text currentKey = new Text();      // 当前的Key

    private Text currentValue = new Text();    // 当前的Value

    private Configuration conf;                // 任务信息

    private boolean processed;                 // 记录当前文件是否已经读取

    public MyRecordReader(CombineFileSplit combineFileSplit,

            TaskAttemptContext context, Integer index) throws IOException {

        super();

        this.currentIndex = index;

        this.combineFileSplit = combineFileSplit;

        conf = context.getConfiguration();

        totalLength = combineFileSplit.getPaths().length;

        processed = false;

    }

    @Override

    public void initialize(InputSplit split, TaskAttemptContext context)

            throws IOException, InterruptedException {

    }

    @Override

    public Text getCurrentKey() throws IOException, InterruptedException {

        return currentKey;

    }

    @Override

    public Text getCurrentValue() throws IOException, InterruptedException {

        return currentValue;

    }

    @Override

    public float getProgress() throws IOException {

        if (currentIndex >= 0 && currentIndex < totalLength) {

            currentProgress = (float) currentIndex / totalLength;

            return currentProgress;

        }

        return currentProgress;

    }

    @Override

    public void close() throws IOException {

    }

    @Override

    public boolean nextKeyValue() throws IOException {

        if (!processed) {    // 如果文件未处理则读取文件并设置key-value

            // set key

            Path file = combineFileSplit.getPath(currentIndex);

            currentKey.set(file.getParent().getName()); // category's name

            // set value

            FSDataInputStream in = null;

            byte[] contents = new byte[(int)combineFileSplit.getLength(currentIndex)];

            try {

                FileSystem fs = file.getFileSystem(conf);

                in = fs.open(file);

                in.readFully(contents);

                currentValue.set(contents);

            } catch (Exception e) {

            } finally {

                in.close();

            }

            processed = true;

            return true;

        }

        return false;        //如果文件已经处理，必须返回false

    }

}

package tokenize.inputformat;

import java.io.IOException;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.InputSplit;

import org.apache.hadoop.mapreduce.JobContext;

import org.apache.hadoop.mapreduce.RecordReader;

import org.apache.hadoop.mapreduce.TaskAttemptContext;

import org.apache.hadoop.mapreduce.lib.input.CombineFileInputFormat;

import org.apache.hadoop.mapreduce.lib.input.CombineFileRecordReader;

import org.apache.hadoop.mapreduce.lib.input.CombineFileSplit;

public class MyInputFormat extends CombineFileInputFormat<Text, Text> {

    /**

     *   make sure file will not be splitted

     */

    @Override

    protected boolean isSplitable(JobContext context, Path file) {

        return false;

    }

    /**

     *   specify record reader

     */

    @Override

    public RecordReader<Text, Text> createRecordReader(InputSplit split, TaskAttemptContext context) throws IOException {

        CombineFileRecordReader<Text, Text> recordReader =     new CombineFileRecordReader<Text, Text>(

                (CombineFileSplit)split, context, MyRecordReader.class);

        return recordReader;

    }

}

Hadoop InputFormat详解的更多相关文章

Hadoop Streaming详解
一: Hadoop Streaming详解 1.Streaming的作用 Hadoop Streaming框架,最大的好处是,让任何语言编写的map, reduce程序能够在hadoop集群上运行:m ...
Python API 操作Hadoop hdfs详解
1:安装由于是windows环境(linux其实也一样),只要有pip或者setup_install安装起来都是很方便的 >pip install hdfs 2:Client——创建集群连接 ...
Hadoop Pipeline详解[摘抄]
最近使用公司内部的一个框架写map reduce发现没有封装hadoop streaming这些东西,查了下pipeline相关的东西 Hadoop Pipeline详解 20. Aug / had ...
hadoop框架详解
Hadoop框架详解 Hadoop项目主要包括以下四个模块 ◆ Hadoop Common: 为其他Hadoop模块提供基础设施 ◆ Hadoop HDFS: 一个高可靠.高吞吐量的分布式文件系统 ◆ ...
Hadoop基本命令详解
调用文件系统(FS)Shell命令应使用bin/hadoop fs <args>的形式.所有的的FS shell命令使用URI路径作为参数.URI路径详解点击这里. 1.cat 说明:将路 ...
hadoop shell 详解
概述所有的hadoop命令均由bin/hadoop脚本引发.不指定参数运行hadoop脚本会打印所有命令的描述. 用法: hadoop [--config confdir] [COMMAND] ...
Hadoop实战之二~ hadoop作业调度详解(1)
对Hadoop的最感兴趣的地方,也就在于Hadoop的作业调度了,在正式介绍如何搭建Hadoop之前,深入理解一下Hadoop的作业调度很有必要.我们不一定能用得上Hadoop,但是如果理通顺Hado ...
mapreduce: InputFormat详解 -- RecordReader篇
InputFormat是MapReduce中一个很常用的概念,它在程序的运行中到底起到了什么作用呢? InputFormat其实是一个接口,包含了两个方法: public interface Inpu ...
Hadoop配置文件详解
1 获取默认配置配置hadoop,主要是配置core-site.xml,hdfs-site.xml,mapred-site.xml三个配置文件,默认下来,这些配置文件都是空的,所以很难知 ...

随机推荐

nginx用cookie控制访问权限实现方法
自己的一个需求需要对a.b.com 下的 /c 这个目录下,cookie d=e 才能访问,如果不是,就重定向到f.html 下面看代码. 代码如下复制代码 server{ serve ...
【opencv学习笔记八】创建TrackBar轨迹条
createTrackbar这个函数我们以后会经常用到,它创建一个可以调整数值的轨迹条,并将轨迹条附加到指定的窗口上,使用起来很方便.首先大家要记住,它往往会和一个回调函数配合起来使用.先看下他的函数 ...
Linux下压缩/解压
Linux下各种压缩包的解压方法作者:intq 时间:2009-9-25 文章来源:来自网络 ---------------------------------------------------- ...
%.*s, printf
%.*s_百度搜索 c语言%.*s是什么_百度知道 *用来指定宽度,对应一个整数 .(点)与后面的数合起来是指定必须输出这个宽度,如果所输出的字符串长度大于这个数,则按此宽度输出,如果小于,则输出实 ...
R 数据类型
c()功能函数,产数据用向量:一维数组,要求存放的数据类型一致矩阵:二维数组,要求存放的数据类型一致,用通过matrix函数创建数组:维度超过二维时建议用数组,用可araay函数创建数据框:相 ...
15、使用ggtree实现进化树的可视化和注释（转载）
本文作者:余光创,目前就读于香港大学公共卫生系,开发过多个R/Bioconductor包,包括ChIPseeker, clusterProfiler, DOSE,ggtree,GOSemSim和Rea ...
vue.js基础学习（2）
vm=new vue({ date:{name:"aa", user:{“name”:"lsm"}}); 获取属性值 1:vm.name 2:vm.$data. ...
hdu1070
#include <stdio.h>#include <string.h>struct milk{ char brand[128]; int price; int volume ...
20169201 使用Metaspoit攻击MS08-067实验
MS08-067漏洞介绍 MS08-067漏洞的全称为"Windows Server服务RPC请求缓冲区溢出漏洞",如果用户在受影响的系统上收到特制的 RPC 请求,则该漏洞可能允 ...
win7 系统安装 docker
如果顺利的话,步骤如下: 1.下载DockerToolbox 2.安装DockerToolbox,默认配置,一路下一步即可完成安装 3.安装成功后,桌面会新增三个快捷方式,如下图 4.点击运行Dock ...

Hadoop InputFormat详解

Hadoop InputFormat详解的更多相关文章

随机推荐

热门专题