Job流程：决定map个数的因素

此文紧接Job流程：提交MR-Job过程。上一篇分析可以看出，MR-Job提交过程的核心代码在于 JobSubmitter 类的 submitJobInternal()方法。本文就由此方法的这一句代码开始分析：

//计算并确定 map 的个数，以及各个输入切片 Splits 的相关信息

int maps = writeSplits(job, submitJobDir);

1.查看writeSplits()方法的实现过程：

private int writeSplits(org.apache.hadoop.mapreduce.JobContext job,

      Path jobSubmitDir) throws IOException,

      InterruptedException, ClassNotFoundException {

    JobConf jConf = (JobConf)job.getConfiguration();

    int maps;

    if (jConf.getUseNewMapper()) {

      //决定map个数的关键性方法

      maps = writeNewSplits(job, jobSubmitDir);

    } else {

      maps = writeOldSplits(jConf, jobSubmitDir);

    }

    //返回map个数

    return maps;

}

2.查看writeNewSplits()方法的实现过程：

//此方法返回int类型，即map的个数

//此方法实现倒着分析为好

private <T extends InputSplit>

  int writeNewSplits(JobContext job, Path jobSubmitDir) throws IOException,

      InterruptedException, ClassNotFoundException {

    Configuration conf = job.getConfiguration();

    InputFormat<?, ?> input =

      ReflectionUtils.newInstance(job.getInputFormatClass(), conf);

    //List集合是由getSplits()方法生成 -->【核心代码】

    List<InputSplit> splits = input.getSplits(job);


 

    //array数组是由List<InputSplit>集合转化而来 -->查看List集合的定义

    T[] array = (T[]) splits.toArray(new InputSplit[splits.size()]);

    // sort the splits into order based on size, so that the biggest

    // go first

    Arrays.sort(array, new SplitComparator());

    JobSplitWriter.createSplitFiles(jobSubmitDir, conf,

        jobSubmitDir.getFileSystem(conf), array);

    //array数组的长度,即map的个数 -->查看array数组的定义

    return array.length;

}

3.查看getSplits()方法的实现

　　此方法是InputFormat 类的一个抽象方法。在其子类 FileInputFormat 类中为文件格式输入类型提供了统一的 getSplits()方法实现。

public List<InputSplit> getSplits(JobContext job) throws IOException {


    //第一个参数返回值为 1;
    //第二个参数是读取配置文件中的 mapreduce.input.fileinputformat.split.minsize 属性(默认值为 0),如果没有配置则返回 1.
    //所以 minSize=Math(1,0),即值是 1
    long minSize = Math.max(getFormatMinSplitSize(), getMinSplitSize(job));

    //读取配置文件中的 mapreduce.input.fileinputformat.split.maxsize 属性(默认没有配置)
    //如果没有配置则返回 long.MAX_VALUE
    long maxSize = getMaxSplitSize(job);

    //定义 List 集合，用来存储输入分片 InputSplit 
    List<InputSplit> splits = new ArrayList<InputSplit>();


    //变量 files 存储的是 "输入路径中所有的文件集合"
    List<FileStatus> files = listStatus(job);


    //循环处理每一个输入文件
    for (FileStatus file: files) {


      //获得文件路径
      Path path = file.getPath();


      //获得文件总长度
      long length = file.getLen();


      //判断文件是否为空
      if (length != 0) {

        BlockLocation[] blkLocations;

        if (file instanceof LocatedFileStatus) {


          //获得文件对应的 所有Block块的 位置
          blkLocations = ((LocatedFileStatus) file).getBlockLocations();

        } else {

          FileSystem fs = path.getFileSystem(job.getConfiguration());

          blkLocations = fs.getFileBlockLocations(file, 0, length);

        }


        //如果文件大小非空，并且文件允许被分割
        if (isSplitable(job, path)) {


          //获取配置文件中Block块的大小,默认128MB
          long blockSize = file.getBlockSize();

          //计算输入切片的大小【核心代码】
          long splitSize = computeSplitSize(blockSize, minSize, maxSize);

          //将bytesRemaining(剩余未分片字节数)设置为整个文件的长度
          long bytesRemaining = length;


          //while()循环体，按照 splitSize 对每个输入文件进行【逻辑切分】，得到 Splits 集合
          while (((double) bytesRemaining)/splitSize > SPLIT_SLOP) {

            int blkIndex = getBlockIndex(blkLocations, length-bytesRemaining);


            //参数列表：文件所在路径、切片起始的位置、切片大小、切片所在节点
            splits.add(makeSplit(path, length-bytesRemaining, splitSize,

                                     blkLocations[blkIndex].getHosts()));

            bytesRemaining -= splitSize;

          }

          //如果block中剩下的一小段数据量小于splitSize，还是认为它是独立的分片

          if (bytesRemaining != 0) {

            int blkIndex = getBlockIndex(blkLocations, length-bytesRemaining);

            splits.add(makeSplit(path, length-bytesRemaining, bytesRemaining,

                       blkLocations[blkIndex].getHosts()));

          }

        } else { //文件不能切分则将整个文件作为一个输入分片 InputSplit

          splits.add(makeSplit(path, 0, length, blkLocations[0].getHosts()));

        }

      } else {

        //输入文件为空,则对应的 Block块 所在节点也应该为空

        splits.add(makeSplit(path, 0, length, new String[0]));

      }

    }

    // Save the number of input files for metrics/loadgen

    job.getConfiguration().setLong(NUM_INPUT_FILES, files.size());

    LOG.debug("Total # of splits: " + splits.size());

    return splits;

}

4.查看computeSplitSize()方法的具体实现：

protected long computeSplitSize(long blockSize, long minSize,

                                  long maxSize) {


    //对于默认情况，三个参数分别为:1,long.MAX_VALUE,128MB
    //所以,表达式整体返回 128MB
    return Math.max(minSize, Math.min(maxSize, blockSize));

}

所以，影响 map 任务数量的因素在于以上三个参数的设置：

默认情况 splitSize=blockSize，即一个 map 任务读取一个 block 块。
增加 minSize 超过 128M，则增加 splitSize，即 map 任务个数变小。
减小 maxSize 小于 128M，则减小 splitSize，即 map 任务个数变多。

Map 个数 = 文件大小 / 128M Reduce 个数 = 分区 Partitioner 个数 = 最终输出文件个数

注意：特殊压缩的 map 切分【即不可切分文件】
例题：假设HDFS上有一个大小75MB的文件，当客户端设置Block大小为64MB。则运行MR任务读取该文件时InputSplit大小为多少？
1) 如果该文件是普通文件，则应该是两个InputSplit分片：64MB 和 11MB。
2) 如果该文件是 gzip等压缩包格式的文件，则只有一个InputSplit分片：75MB。
　　

Job流程：决定map个数的因素的更多相关文章

hadoop控制map个数（转）
原文链接:https://blog.csdn.net/lylcore/article/details/9136555 hadooop提供了一个设置map个数的参数mapred.map.task ...
hadoop之 map个数控制
hadooop提供了一个设置map个数的参数mapred.map.tasks,我们可以通过这个参数来控制map的个数.但是通过这种方式设置map的个数,并不是每次都有效的.原因是mapred.map. ...
Hadoop框架下MapReduce中的map个数如何控制
控制map个数的核心源码 long minSize = Math.max(getFormatMinSplitSize(), getMinSplitSize(job)); //getFormatMinS ...
MapReduce中的map个数
在map阶段读取数据前,FileInputFormat会将输入文件分割成split.split的个数决定了map的个数.影响map个数(split个数)的主要因素有: 1) 文件的大小.当块(dfs. ...
MapReduce的map个数调节与 Hadoop的FileInputFormat的任务切分原理
在对日志等大表数据进行处理的时候需要人为地设置任务的map数,防止因map数过小导致集群资源被耗光.可根据大表的数据量大小设置每个split的大小. 例如设置每个split为500M: set map ...
hadoop map 个数源码分析
本文转自http://ronxin999.blog.163.com/blog/static/42217920201279112163/
Job流程：Mapper类分析
此文紧接Job流程:决定map个数的因素,Map任务被提交到Yarn后,被ApplicationMaster启动,任务的形式是YarnChild进程,在其中会执行MapTask的run()方法.无论是 ...
Job流程：提交MR-Job过程
1.一个标准 MR-Job 的执行入口: //参数 true 表示检查并打印 Job 和 Task 的运行状况 System.exit(job.waitForCompletion(true) ? 0 ...
如何在hadoop中控制map的个数
hadooop提供了一个设置map个数的参数mapred.map.tasks,我们可以通过这个参数来控制map的个数.但是通过这种方式设置map的个数,并不是每次都有效的.原因是mapred.map. ...

随机推荐

Struts2---输入验证
1. Struts2 的验证 1). 验证分为两种: > 声明式验证* 需要解决的问题如下: >> 确定对哪个 Action 或 Model 的那个字段进行验证 >> 使 ...
Efficient data transfer through zero copy
Efficient data transfer through zero copy https://www.ibm.com/developerworks/library/j-zerocopy/ Eff ...
深入理解Flask中的上下文
https://blog.csdn.net/barrysj/article/details/51519254 1.AppContext类即是应用上下文,可以看到里面只保存了几个变量,其中比较重要的有: ...
针对Quant的Python快速入门指南
作者:用Python的交易员 (原创文章,转载请注明出处) 最近有越来越多的朋友在知乎或者QQ上问我如何学习入门Python,就目前需求来看,我需要写这么一篇指南. 针对整个vn.py框架的学习,整体 ...
前端开发 - JavaScript - 下
12.数组 <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF ...
python - 2 8 16进制/颜色/字符编码
1.二进制八进制十六进制二进制: bin() 0b10010八进制: oct() 0o10十进制: 1-100十六进制: hex() 0X53 BH 十进制转2, 8,16进制: >> ...
SVN部署
1.安装SVN yum install subversion –y 2.配置SVN 建立SVN版本库数据存储目录(svndata)及用户.密码权限目录(svnpasswd) mkdir -p /app ...
java-mybaits-00503-延迟加载
1.什么是延迟加载 resultMap可以实现高级映射(使用association.collection实现一对一及一对多映射),association.collection具备延迟加载功能. 需求: ...
sdut3140 A*B（math)
题目:传送门题目描述 Your task is to find the minimal positive integer number Q so that the product of digits ...
django xadmin app models 注册
在app下新建adminx.py文件 # -*- coding: utf-8 -*- # 作者:神秘藏宝室 # 日期:2018/12/28 22:07 import xadmin from .mode ...

Job流程：决定map个数的因素

Job流程：决定map个数的因素的更多相关文章

随机推荐

热门专题