MapReduce从输入文件到Mapper处理之间的过程

1、MapReduce代码入口

FileInputFormat.setInputPaths(job, new Path(input)); //设置MapReduce输入格式

job.waitForCompletion(true);

2、InputFormat分析

public abstract class InputFormat<K, V> {

    //获取输入文件的分片，仅是逻辑分片，并没有物理分片

    public abstract  List<InputSplit> getSplits(JobContext context);

    //创建RecordReader，从InputSplit中读取数据

    public abstract  RecordReader<K,V> createRecordReader(InputSplit split,TaskAttemptContext context) ;

}

不同的InputFormat会各自实现不同的文件读取方式以及分片方式，每个输入分片(InputSplit)会被单独的map task作为数据源

3、InputSplit

Mapper的输入是一个一个的输入分片(InputSplit)

public abstract class InputSplit {

  public abstract long getLength();

  public abstract String[] getLocations();

}

public class FileSplit extends InputSplit implements Writable{

    private Path file; //文件路径

    private long start; //分片起始位置

    private long length;  //分片长度

    private String[] hosts; //存储分片的hosts

    public FileSplit(Path file, long start, long length, String[] hosts) {

        this.file = file;

        this.start = start;

        this.length = length;

        this.hosts = hosts;

    }

}

一个FileSplit对应Mapper的一个输入文件，不管这个文件有多么的小，也是作为一个单独的InputSplit来处理；
在输入文件是由大量小文件组成的场景下，就会有大量的InputSplit，从而需要大量的Mapper的处理；
大量的Mapper Task创建和销毁开销将是巨大的；可以采用CombineFileSplit将多个小文件进行合并再交由Mapper Task处理；

4、FileInputFormat

public List<InputSplit> getSplits(JobContext job) throws IOException {

    /**

     * getFormatMinSplitSize() = 1

     * job.getConfiguration().getLong(SPLIT_MINSIZE, 1L)

     * SPLIT_MINSIZE = "mapreduce.input.fileinputformat.split.minsize"

     * mapred-default.xml中参数为0

     */

    long minSize = Math.max(getFormatMinSplitSize(), getMinSplitSize(job)); //计算分片的最小值： max(1,0) = 1

    /**

     * SPLIT_MAXSIZE = "mapreduce.input.fileinputformat.split.maxsize"

     * mapred-default.xml中参数为空

     */

    long maxSize = getMaxSplitSize(job); //计算分片的最大值：Long.MAX_VALUE

    //存储输入文件的分片结果

    List<InputSplit> splits = new ArrayList<InputSplit>();

    List<FileStatus> files = listStatus(job);

    for (FileStatus file: files) {

        Path path = file.getPath();

        long length = file.getLen();

        if (length != 0) {

            ...

            if (isSplitable(job, path)) { //能分片

                long blockSize = file.getBlockSize();

                long splitSize = computeSplitSize(blockSize, minSize, maxSize);{

                    //max(1, min(Long.MAX_VALUE, 64M)) = 64M 默认情况下splitSize=blockSize

                    return Math.max(minSize, Math.min(maxSize, blockSize));

                }

                //循环分片，当剩余数据与分片大小比值大于Split_Slop时，继续分片，小于等于时，停止分片

                long bytesRemaining = length;

                while (((double) bytesRemaining)/splitSize > SPLIT_SLOP) { //SPLIT_SLOP = 1.1

                    int blkIndex = getBlockIndex(blkLocations, length-bytesRemaining);

                    splits.add(makeSplit(path, length-bytesRemaining, splitSize, blkLocations[blkIndex].getHosts()));

                    bytesRemaining -= splitSize;

                }

                //处理余下的数据

                if (bytesRemaining != 0) {

                    int blkIndex = getBlockIndex(blkLocations, length-bytesRemaining);

                    splits.add(makeSplit(path, length-bytesRemaining, bytesRemaining, blkLocations[blkIndex].getHosts()));

                }

            } else { // 不可分片，整块返回（有些压缩后是不能分片处理的）

                splits.add(makeSplit(path, 0, length, blkLocations[0].getHosts()));

            }

        } else {

            splits.add(makeSplit(path, 0, length, new String[0]));

        }

    }

    job.getConfiguration().setLong(NUM_INPUT_FILES, files.size()); // 设置输入文件数量

    LOG.debug("Total # of splits: " + splits.size());

    return splits;

}

5、PathFilter

protected List<FileStatus> listStatus(JobContext job) throws IOException {

    ......

    List<PathFilter> filters = new ArrayList<PathFilter>();

    filters.add(hiddenFileFilter);

    PathFilter jobFilter = getInputPathFilter(job);

    if (jobFilter != null) {

      filters.add(jobFilter);

    }

    PathFilter inputFilter = new MultiPathFilter(filters);

    ......

}

PathFilter文件筛选器接口，使用它我们可以控制哪些文件要作为输入，哪些不作为输入；
PathFilter有一个accept(Path)方法，当接收的Path要被包含进来，就返回true，否则返回false；

public interface PathFilter {

    boolean accept(Path path);

}

//过滤掉文件名以_或者.开头的文件

private static final PathFilter hiddenFileFilter = new PathFilter(){

    public boolean accept(Path p){

        String name = p.getName();

        return !name.startsWith("_") && !name.startsWith(".");

    }

};

6、RecordReader

RecordReader将InputSplit拆分成KEY-VALUE对

public abstract class RecordReader<KEYIN, VALUEIN> implements Closeable {

    //InputSplit初始化

    public abstract void initialize(InputSplit split,TaskAttemptContext context) ;

    //读取分片下一个<key, value>对

    public abstract boolean nextKeyValue() throws IOException, InterruptedException;

    //获得当前读取到的KEY

    public abstract KEYIN getCurrentKey() throws IOException, InterruptedException;

    //获得当前读取到的VALUE

     public abstract  VALUEIN getCurrentValue() throws IOException, InterruptedException;

    //跟踪读取分片的进度

    public abstract float getProgress() throws IOException, InterruptedException;

    //关闭RecordReader

    public abstract void close() throws IOException;

}

7、Mapper

public class Mapper<KEYIN, VALUEIN, KEYOUT, VALUEOUT> {

    public abstract class Context implements MapContext<KEYIN,VALUEIN,KEYOUT,VALUEOUT> {

    }

    //预处理，仅在map task启动时运行一次

    protected void setup(Context context) throws IOException, InterruptedException {

    }

    //对于InputSplit中的每一对<key, value>都会运行一次

    protected void map(KEYIN key, VALUEIN value, Context context) throws IOException, InterruptedException {

        context.write((KEYOUT) key, (VALUEOUT) value);

    }

    //扫尾工作，比如关闭流等

    protected void cleanup(Context context) throws IOException, InterruptedException {

    }

    public void run(Context context) throws IOException, InterruptedException {

        setup(context);

        try {

            while (context.nextKeyValue()) {

                map(context.getCurrentKey(), context.getCurrentValue(), context);

            }

        } finally {

            cleanup(context);

        }

    }

}

模板模式的应用：run方法：
1）setup
2）循环从InputSplit中获得到的KV对调用map函数进行处理
3）cleanup

至此完成了MapReduce的输入文件是如何被过滤、分片、读取、读出“K-V对”，然后交给Mapper类来处理

MapReduce从输入文件到Mapper处理之间的过程的更多相关文章

Hadoop（十七）之MapReduce作业配置与Mapper和Reducer类
前言前面一篇博文写的是Combiner优化MapReduce执行,也就是使用Combiner在map端执行减少reduce端的计算量. 一.作业的默认配置 MapReduce程序的默认配置 1)概述 ...
Hadoop Mapreduce分区、分组、二次排序过程详解[转]
原文地址:Hadoop Mapreduce分区.分组.二次排序过程详解[转]作者: 徐海蛟教学用途 1.MapReduce中数据流动 (1)最简单的过程: map - reduce (2) ...
hadoop平台上HDFS和MAPREDUCE的功能、工作原理和工作过程
作业要求来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3319 1.用自己的话阐明Hadoop平台上HDFS和MapReduce ...
【转】wpa_supplicant与wpa_cli之间通信过程
[转]wpa_supplicant与wpa_cli之间通信过程转自:http://blog.chinaunix.net/uid-26585427-id-4051479.html wpa_suppli ...
MapReduce的输入文件是两个
[学习笔记] 1.对于MapReduce程序,如何输入文件是两个文件? 这一小节,我们将继续第一章大数据入门的HelloWorld例子做进一步的研究.这里,我们研究如何输入文件是两个文件.packag ...
Hadoop学习笔记（老版本，YARN之前），MapReduce任务Namenode DataNode Jobtracker Tasktracker之间的关系
一.基本概念在MapReduce中,一个准备提交执行的应用程序称为“作业(job)”,而从一个作业划分出的运行于各个计算节点的工作单元称为“任务(task)”.此外,Hadoop提供的分布式文件系统 ...
027_编写MapReduce的模板类Mapper、Reducer和Driver
模板类编写好后写MapReduce程序,的模板类编写好以后只需要改参数就行了,代码如下: package org.dragon.hadoop.mr.module; import java.io.IOE ...
MapReduce(2): How does Mapper work
In the previous post, we've illustrated how Hadoop MapReduce prepares input for Mappers. Long story ...
关于Mybatis与Spring整合之后SqlSession与mapper对象之间数量的问题。
1,sqlsession的真实类型和数量由于使用spring管理bean,当我们在代码中需要使用这个bean的时候,会首先去容器中找,第一次需要调用MapperFactoryBean的getObje ...

随机推荐

BouncyCastle产生一个PKCS#12规范的PFX/p12证书
RT,在C#中实现,依赖.netFramework2.0 BouncyCastle中提供了PKCS12Store,Pkcs12StoreBuilder,AsymmetricKeyEntry,X509C ...
$_SERVER 相关变量
PHP编程中经常需要用到一些服务器的一些资料,特把$_SERVER的详细参数整理下,方便以后使用. $_SERVER['PHP_SELF'] #当前正在执行脚本的文件名,与 document root ...
nova分析（2）—— nova-all
nova-all是一个用来启动所有nova服务的辅助脚本,注意只是启动所有服务,不包括停止和重启等功能. nova-all的入口在 nova.cmd.all:main ,脚本也比较简单,这儿就贴下代码 ...
在使用Redis的客户端连接工具ServiceStack.Redis要注意的问题
在使用Redis的客户端连接工具ServiceStack.Redis要注意的问题 Redis是一个非常NB的内存级的数据库,我们可以把很多”热数据“(即读写非常多的数据)放入其中来操作,这样就减少 ...
MongoDB小型文档型数据库使用
MongoDB是一个基于分布式文件存储的数据库.由C++语言编写.旨在为WEB应用提供可扩展的高性能数据存储解决方案. MongoDB 是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中 ...
FTP搭建
在桌面上右击“我的电脑”,执行“管理”命令,在“计算机管理”窗口的左窗格中依次展开“系统工具 ”→“本地用户和组”目录,单击选中“用户”选项.在右侧窗格中单击右键,执行“新用户”命令.在打开的“新用 ...
[jQuery]attr和prop的区别
转自:http://www.cnblogs.com/Showshare/p/different-between-attr-and-prop.html 在高版本的jquery引入prop方法后,什么时候 ...
关于oc中出现的typedef的用法/定义函数指针
typedef int (^calculateBlock)(int a,int b); 这里面typedef的作用只是给 calculateBlock取了一个别名,说明以后可以直接使用. calcu ...
BEvent_客制化BusinessEvent通过PLSQL Procedurer接受消息传递（案例）
2014-06-27 Created By BaoXinjian
Form_通过Custom.pll新增菜单项（案例）
2014-05-31 Created By BaoXinjian

MapReduce从输入文件到Mapper处理之间的过程

MapReduce从输入文件到Mapper处理之间的过程的更多相关文章

随机推荐

热门专题