hadoop InputFormat getSplits

 /** Splits files returned by {@link #listStatus(JobConf)} when

   * they're too big.*/

  public InputSplit[] getSplits(JobConf job, int numSplits)

    throws IOException {

    //计时器，

    StopWatch sw = new StopWatch().start();

    //

    FileStatus[] files = listStatus(job);

    // Save the number of input files for metrics/loadgen

    //设置配置中文件个数mapreduce.input.fileinputformat.numinputfiles

    job.setLong(NUM_INPUT_FILES, files.length);

    // 计算所有文件的大小总和

    long totalSize = 0;                           // compute total size

    for (FileStatus file: files) {                // check we have valid files

      if (file.isDirectory()) {

        throw new IOException("Not a file: "+ file.getPath());

      }

      totalSize += file.getLen();

    }

    // 每个split目标大小，用总的文件大小 / （max（设置的split个数，1）），

    long goalSize = totalSize / (numSplits == 0 ? 1 : numSplits);

    // 每个split大小的最小值，读取mapreduce.input.fileinputformat.split.minsize配置，如果没有配置的话那么

    // 取minSplitSize =1

    long minSize = Math.max(job.getLong(org.apache.hadoop.mapreduce.lib.input.

      FileInputFormat.SPLIT_MINSIZE, 1), minSplitSize);

    // 生成 splits

    ArrayList<FileSplit> splits = new ArrayList<FileSplit>(numSplits);

    NetworkTopology clusterMap = new NetworkTopology();

    //遍历文件列表

    for (FileStatus file: files) {

      //获取一个文件路径

      Path path = file.getPath();

      //获取文件大小

      long length = file.getLen();

      if (length != 0) {

        FileSystem fs = path.getFileSystem(job);

        BlockLocation[] blkLocations;

        //判断file是否包含file的location，也就是，是否包含BlockLocation等信息，

        if (file instanceof LocatedFileStatus) {

          blkLocations = ((LocatedFileStatus) file).getBlockLocations();

        } else {

          //去构造BlockLocation信息

          blkLocations = fs.getFileBlockLocations(file, 0, length);

        }

        //判断文件是否可以切分

        if (isSplitable(fs, path)) {

          //获取文件的BlockSize大小

          long blockSize = file.getBlockSize();

          //splitSize最终由 goalSize（设置的每个split大小的目标值），minSize（设置的每个split大小的最小值），blockSize（file的block数量）三个值所决定，逻辑关系如下：

          // Math.max(minSize, Math.min(goalSize, blockSize))

          // Math.max(minSize, Math.min((totalSize / (numSplits == 0 ? 1 : numSplits)), blockSize))

          // numSplits这个设置，只有在totalSize/numSplits < blockSize才会生效

          // minSize 只有在大于blockSize的时候才会生效

          long splitSize = computeSplitSize(goalSize, minSize, blockSize);

          //文件为读取长度

          long bytesRemaining = length;

          //如果剩余的大小/split的大小大雨1.1，那么就商城生成一个split

          while (((double) bytesRemaining)/splitSize > SPLIT_SLOP) {

            String[][] splitHosts = getSplitHostsAndCachedHosts(blkLocations,

                length-bytesRemaining, splitSize, clusterMap);

            splits.add(makeSplit(path, length-bytesRemaining, splitSize,

                splitHosts[0], splitHosts[1]));

            bytesRemaining -= splitSize;

          }

          //剩余的一点点数据也要生成一个split，

          if (bytesRemaining != 0) {

            String[][] splitHosts = getSplitHostsAndCachedHosts(blkLocations, length

                - bytesRemaining, bytesRemaining, clusterMap);

            splits.add(makeSplit(path, length - bytesRemaining, bytesRemaining,

                splitHosts[0], splitHosts[1]));

          }

        } else {

          String[][] splitHosts = getSplitHostsAndCachedHosts(blkLocations,0,length,clusterMap);

          splits.add(makeSplit(path, 0, length, splitHosts[0], splitHosts[1]));

        }

      } else {

        //Create empty hosts array for zero length files

        splits.add(makeSplit(path, 0, length, new String[0]));

      }

    }

    sw.stop();

    if (LOG.isDebugEnabled()) {

      LOG.debug("Total # of splits generated by getSplits: " + splits.size()

          + ", TimeTaken: " + sw.now(TimeUnit.MILLISECONDS));

    }

    return splits.toArray(new FileSplit[splits.size()]);

  }

hadoop InputFormat getSplits的更多相关文章

Hadoop InputFormat浅析
本文转载:http://hi.baidu.com/_kouu/item/dc8d727b530f40346dc37cd1 在执行一个Job的时候,Hadoop会将输入数据划分成N个Split,然后启动 ...
Hadoop InputFormat
Hadoop可以处理不同数据格式(数据源)的数据,从文本文件到(非)关系型数据库,这很大程度上得益于Hadoop InputFormat的可扩展性设计,InputFormat层次结构图如下:
Hadoop InputFormat详解
InputFormat是MapReduce编程模型包括5个可编程组件之一,其余4个是Mapper.Partitioner.Reducer和OutputFormat. 新版Hadoop InputFor ...
Hadoop InputFormat 输入文件分片
1. Mapper 与 Reducer 数量对于一个默认的MapReduce Job 来说,map任务的数量等于输入文件被划分成的分块数,这个取决于输入文件的大小以及文件块的大小(如果此文件在 HD ...
Hadoop InputFormat OutputFormat
InputFormat有两个抽象方法: getSplits createRecordReader InputSplits 将数据按照Split进行切分,一个Split分给一个task执行. ...
hadoop InputFormat 类别
FileInputFormat是所有使用文件作为数据源的InputFormat的积累.它提供两个功能:一个是定义哪些文件包含在一个作业的输入中:一个为输入文件生成分片的实现.自动将作业分块作业分块大 ...
Hadoop开发相关问题
总结自己在Hadoop开发中遇到的问题,主要在mapreduce代码执行方面.大部分来自日常代码执行错误的解决方法,还有一些是对Java.Hadoop剖析.对于问题,通过查询stackoverflow ...
Hadoop与Spark比较
先看这篇文章:http://www.huochai.mobi/p/d/3967708/?share_tid=86bc0ba46c64&fmid=0 直接比较Hadoop和Spark有难度,因为 ...
Hadoop上结合opencv\javacv
mac上安装opencv 1. 去 http://opencv.org 下载最新版OpenCV for Linux/Mac源文件,目前版本是2.4.3.下载后解压.2. 去 http://www.cm ...

随机推荐

Spring 4 + Hibernate 4 下 getCurrentSession()的使用情况
前言:1 getCurrentSession创建的session会和绑定到当前线程,而openSession不会. 2 getCurrentSession创建的线程会在事务回滚或事物提交后自动关闭 ...
netty的Udp单播、组播、广播实例+Java的Udp单播、组播、广播实例
网络上缺乏netty的udp的单播.组播案例,经过一番学习总结之后终于把这两个案例调通,下面把这两个案例的代码放在这里分享一下. 首先推荐博文: http://colobu.com/2014/10/2 ...
nginx解决超长请求串(413 request Entity too Large错误解决办法)
<div class="hide-article-box text-center" style="display: block;"> <a c ...
【比赛】百度之星2017 初赛Round B
第一题题意:给定n*m网络,定义两个棋子在同行同列则相互攻击,同时要求两个棋子的行和列不能一小一大,求满足条件的最大摆放的方案数. 题解:ans=C(max(n,m),min(n,m)),就是在ma ...
linux基础——关于chmod用户权限和文件的相关操作
第一部分:1) 新建用户natasha,uid为1007,gid为555,备注信息为“master” 操作:useradd natasha新建natasha:修改uid是,usermod -u 100 ...
Linux ： select()详解和实现原理【转】
转自:http://blog.csdn.net/huntinux/article/details/39289317 原文:http://blog.csdn.net/boboiask/article/d ...
常见协议基础知识总结--FTP协议
FTP协议是一种基于客户端和服务器的文件传输协议,属于应用层协议,基于传输层的TCP协议: FTP主要分成主动模式和被动模式两种传输方式, 方式是相对服务器而言的,服务器主动发起数据连接即主动方式,使 ...
linux下源码安装netcat
linux下源码安装netcat http://blog.chinaunix.net/uid-20783755-id-4211230.html 1,下载netcat源码,netcat-0.7.1-13 ...
win端git连接私服仓库+上传本地项目+从服务器下载文件到win
win端git连接私服仓库: 1.win端检查c:/Users/用户/.ssh/目录下是否有config文件(!!!没有任何后缀名).如果没有则新建config文件,然后修改添加如下内容: Host ...
【 HAProxy 】学习笔记
一.haproxy的功能: HAProxy vs LVS HAProxy支持tcp和http两种代理模式,而lvs仅支持tcp代理模式 HAProxy相比LVS的使用要简单 ...

hadoop InputFormat getSplits

hadoop InputFormat getSplits的更多相关文章

随机推荐

热门专题