自定义InputFormat

回顾：

　　在上一篇https://www.cnblogs.com/superlsj/p/11857691.html详细介绍了InputFormat的原理和常见的实现类。总结来说，一个InputFormat是将文件切片----->再转化为<key--value>对转交给Mapper处理。

　　所以我们看到在InputFormat类中只有两个方法，一个负责切片，一个返回能将切片信息转化为相应的键值对的对象：

public abstract class InputFormat<K, V> {

    public InputFormat() {

    }

    public abstract List<InputSplit> getSplits(JobContext var1) throws IOException, InterruptedException;

    public abstract RecordReader<K, V> createRecordReader(InputSplit var1, TaskAttemptContext var2) throws IOException, InterruptedException;

}

　　以KeyValueInputFormat为例：

@Stable

public class KeyValueTextInputFormat extends FileInputFormat<Text, Text> {

    public KeyValueTextInputFormat() {

    }

    protected boolean isSplitable(JobContext context, Path file) {

        CompressionCodec codec = (new CompressionCodecFactory(context.getConfiguration())).getCodec(file);

        return null == codec ? true : codec instanceof SplittableCompressionCodec;

    }

    public RecordReader<Text, Text> createRecordReader(InputSplit genericSplit, TaskAttemptContext context) throws IOException {

        context.setStatus(genericSplit.toString());

        return new KeyValueLineRecordReader(context.getConfiguration());

    }

}

　　我们知道：当使用KeyValueInputFormat并设置分隔符后，Mapper以分隔符前的内容作为Key，以分隔符后面的内容作为Value，都为Text类型，那么在数据提交到Mapper之前，数据就必须被格式化为满足Mapper接收的格式，这个工作就是由RecordReader来完成的，因此，其泛型也必须与Mapper接收类型一致。顺带一提：isSplitable方法返回文件是否可以切片，当返回false时，表示在格式化输入文件时，不对文件进行切片，而直接进行文本数据至键值对的转化。

设计自己的InputFormat：

　　现有的那些InputFormat肯定是无法满足现实中花里胡哨的需求的，所以自定义InputFormat是一项不可避免的工作。下面以将三个小文件合并成一个SquenceFile文件（SuquenceFile文件是Hadoop用来村塾二进制形式的key-value对的文件格式），SuquenceFile里面存储三个小文件，存储形式为文件路径+文件名为key，文件内容为value为例，演示自定义InputFormat的流程。

　　1、自定义InputFormat

public class WholeFileInputFormat extends FileInputFormat<Text, BytesWritable> {

    public RecordReader createRecordReader(InputSplit inputSplit, TaskAttemptContext taskAttemptContext) throws IOException, InterruptedException {

        return new WholeFileRecordReader();

    }

    @Override

    protected boolean isSplitable(JobContext context, Path filename) {

        return false;

    }

}

　　2、自定义RecordReader

public class WholeFileRecordReader extends RecordReader<Text, BytesWritable> {

    private boolean notRead = true;

    private Text key = new Text();

    private BytesWritable value = new BytesWritable();

    private FSDataInputStream inputStream;

    private FileSplit fs;

    /**

     * 初始化方法，框架会在开始的时候调用此方法，

     * 因此，一些在RecordReader工作时需要使用的资源可以此方法中初始化

     */

    public void initialize(InputSplit inputSplit, TaskAttemptContext taskAttemptContext) throws IOException, InterruptedException {

        //转换切片类型到文件切片

        fs = (FileSplit)inputSplit;

        //通过切片获得路径

        Path path = fs.getPath();

        //通过路径获取文件系统

        FileSystem fileSystem = path.getFileSystem(taskAttemptContext.getConfiguration());

        //开流

        inputStream = fileSystem.open(path);

    }

    /**

     * 此方法用于读取下一组数据，类似于迭代器，如果读到数据返回true

     * 因为将路径+文件名作为key,文件内容作为value，所以一个文件只会读取一次，要么没读过，要么读过

     */

    public boolean nextKeyValue() throws IOException, InterruptedException {

        if(notRead){

            //具体读文件的操作

            //读Key

            key.set(fs.getPath().toString());

            //读Value

            byte[] bytes = new byte[(int)fs.getLength()];

            inputStream.read(bytes);

            value.set(bytes,0,bytes.length);

            notRead = true;

            return true;

        }else{

            return false;

        }

    }

    /**

     * 获取当前读到的Key-value对并返回

     */

    public Text getCurrentKey() throws IOException, InterruptedException {

        return key;

    }

    public BytesWritable getCurrentValue() throws IOException, InterruptedException {

        return value;

    }

    /**

     * 返回当前数据的读取进度：0.0~1.0

     * 由于本案例中以路径+整个文件名作为Key，只存在一个K-V对，

     * 所以读取进度只存在两种情况：要么0没读，要么1读完了。

     */

    public float getProgress() throws IOException, InterruptedException {

        return notRead ? 0 : 1;

    }

    /**

     * 常用于关闭资源

     */

    public void close() throws IOException {

        IOUtils.closeStream(inputStream);

    }

}

　　3、测试，本案例中Mapper和Redu啥也不用干，所以不用写，用默认提供的就行，是需要写一个Driver。

public class WholeFileDriver {

    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {

        Job job = Job.getInstance(new Configuration());

        job.setJarByClass(WholeFileDriver.class);

        job.setMapOutputKeyClass(Text.class);

        job.setMapOutputValueClass(BytesWritable.class);

        job.setOutputKeyClass(Text.class);

        job.setOutputValueClass(BytesWritable.class);

        job.setInputFormatClass(WholeFileInputFormat.class);

        job.setOutputFormatClass(SequenceFileOutputFormat.class);//【注意】

        FileInputFormat.setInputPaths(job, new Path("d:\\input"));

        FileOutputFormat.setOutputPath(job, new Path("d:\\output"));

        boolean b = job.waitForCompletion(true);

        System.out.println(b ? 0:1);

    }

}

自定义InputFormat的更多相关文章

commoncrawl 源码库是用于 Hadoop 的自定义 InputFormat 配送实现
commoncrawl 源码库是用于 Hadoop 的自定义 InputFormat 配送实现. Common Crawl 提供一个示例程序 BasicArcFileReaderSample.java ...
自定义InputFormat和OutputFormat案例
一.自定义InputFormat InputFormat是输入流,在前面的例子中使用的是文件输入输出流FileInputFormat和FileOutputFormat,而FileInputFormat ...
Hadoop案例（六）小文件处理（自定义InputFormat）
小文件处理(自定义InputFormat) 1.需求分析无论hdfs还是mapreduce,对于小文件都有损效率,实践中,又难免面临处理大量小文件的场景,此时,就需要有相应解决方案.将多个小文件合并 ...
MapReduce自定义InputFormat和OutputFormat
一.自定义InputFormat 需求:将多个小文件合并为SequenceFile(存储了多个小文件) 存储格式:文件路径+文件的内容 c:/a.txt I love Beijing c:/b.txt ...
自定义inputformat和outputformat
1. 自定义inputFormat 1.1 需求无论hdfs还是mapreduce,对于小文件都有损效率,实践中,又难免面临处理大量小文件的场景,此时,就需要有相应解决方案 1.2 分析小文件的优 ...
MapReduce自定义InputFormat,RecordReader
MapReduce默认的InputFormat是TextInputFormat,且key是偏移量,value是文本,自定义InputFormat需要实现FileInputFormat,并重写creat ...
Hadoop_28_MapReduce_自定义 inputFormat
1. 自定义inputFormat 1.1.需求: 无论hdfs还是mapreduce,对于小文件都有损效率,实践中,又难免面临处理大量小文件,此时就需要有相应解决方案; 1.2.分析: 小文件的优化 ...
【Hadoop离线基础总结】MapReduce自定义InputFormat和OutputFormat案例
MapReduce自定义InputFormat和OutputFormat案例自定义InputFormat 合并小文件需求无论hdfs还是mapreduce,存放小文件会占用元数据信息,白白浪费内 ...
MapReduce之自定义InputFormat
在企业开发中,Hadoop框架自带的InputFormat类型不能满足所有应用场景,需要自定义InputFormat来解决实际问题. 自定义InputFormat步骤如下: (1)自定义一个类继承Fi ...

随机推荐

django 项目创建使用
1. web框架的本质: socket服务端与浏览器的通信 2. socket服务端功能划分: a. 负责与浏览器收发消息(socket通信) --> wsgiref/uWsgi/gunic ...
[python 学习] requests 库的使用
1.get请求 # -*- coding: utf-8 -*- import requests URL_IP = "http://b.com/index.php" pyload = ...
phpstorm 调试时浏览器显示The requested resource / was not found on this server
1.进入thinkphp项目的public 目录运行以下命令即可 root@jiang:/var/www/tp5# php -S localhost:8080 router.php PHP 7.2.2 ...
伊朗Cisco路由器遭黑客攻击全国互联网几乎瘫痪
2018年4月9日,黑客攻击了伊朗的国家信息数据中心.伊朗internet信息安全部称,此次大规模袭击影响了全球约二十万个思科Cisco路由交换器,也包括伊朗的几千个路由器.攻击也影响了互联网服务供应 ...
用于理解C++右值引用的例子
#include <iostream> using namespace std; void printReference (int& value) { cout << ...
【转】iis解决应用程序池**提供服务的进程意外终止进程ID是**。进程退出代码是'0x80'
转自:http://blog.sina.com.cn/s/blog_56a68d5501013xdd.html 我们公司旗下的红黑互联会遇到这种问题事件类型: 警告事件来源: W3SVC事件种类: ...
xxxxxxxxxxxxxxxxxxx
<!DOCTYPE html> <html lang="en"> <head> <meta http-equiv="Conten ...
Linux 用户和组信息
linux系统是一个多用户多任务的分时操作系统,任何一个要使用系统资源的用户,都必须首先向系统管理员申请一个账号.在使用linux操作系统时候,通常我们会遇到对多用户进行管理.比如: 用户账号的添加. ...
linux中awk 详解
一.awk简介 awk是一个非常好用的数据处理工具,相对于sed常常作用于一整个行的处理,awk则比较倾向于一行当中分成数个[字段]处理,因此,awk相当适合处理小型的数据数据处理.awk是一种报表生 ...
loj#500 「LibreOJ β Round」ZQC 的拼图
分析二分倍数然后考虑dp[i][j]表示选到第i个x轴覆盖到j的情况y轴最多覆盖多少贡献柿子可以画图然后相似三角形得到代码 #include<bits/stdc++.h> usin ...

自定义InputFormat

自定义InputFormat的更多相关文章

随机推荐

热门专题