Hadoop map任务数量的计算

Hadoop中决定map个数的的因素有几个，由于版本的不同，决定因素也不一样，掌握这些因素对了解hadoop分片的划分有很大帮助，

并且对优化hadoop性能也很有大的益处。

旧API中getSplits方法:

 public InputSplit[] getSplits(JobConf job, int numSplits)

     throws IOException {

     FileStatus[] files = listStatus(job);

     // Save the number of input files in the job-conf

     job.setLong(NUM_INPUT_FILES, files.length);

     long totalSize = 0;                           // compute total size

     for (FileStatus file: files) {                // check we have valid files

       if (file.isDir()) {

         throw new IOException("Not a file: "+ file.getPath());

       }

       totalSize += file.getLen();

     }

     long goalSize = totalSize / (numSplits == 0 ? 1 : numSplits);

     long minSize = Math.max(job.getLong("mapred.min.split.size", 1),

                             minSplitSize);

     // generate splits

     ArrayList<FileSplit> splits = new ArrayList<FileSplit>(numSplits);

     NetworkTopology clusterMap = new NetworkTopology();

     for (FileStatus file: files) {

       Path path = file.getPath();

       FileSystem fs = path.getFileSystem(job);

       long length = file.getLen();

       BlockLocation[] blkLocations = fs.getFileBlockLocations(file, 0, length);

       if ((length != 0) && isSplitable(fs, path)) {

         long blockSize = file.getBlockSize();

         long splitSize = computeSplitSize(goalSize, minSize, blockSize);

         long bytesRemaining = length;

         while (((double) bytesRemaining)/splitSize > SPLIT_SLOP) {

           String[] splitHosts = getSplitHosts(blkLocations,

               length-bytesRemaining, splitSize, clusterMap);

           splits.add(new FileSplit(path, length-bytesRemaining, splitSize,

               splitHosts));

           bytesRemaining -= splitSize;

         }

         if (bytesRemaining != 0) {

           splits.add(new FileSplit(path, length-bytesRemaining, bytesRemaining,

                      blkLocations[blkLocations.length-1].getHosts()));

         }

       } else if (length != 0) {

         String[] splitHosts = getSplitHosts(blkLocations,0,length,clusterMap);

         splits.add(new FileSplit(path, 0, length, splitHosts));

       } else {

         //Create empty hosts array for zero length files

         splits.add(new FileSplit(path, 0, length, new String[0]));

       }

     }

     LOG.debug("Total # of splits: " + splits.size());

     return splits.toArray(new FileSplit[splits.size()]);

   }

   protected long computeSplitSize(long goalSize, long minSize,

                                        long blockSize) {

     return Math.max(minSize, Math.min(goalSize, blockSize));

   }

新API中getSplits方法：

 public List<InputSplit> getSplits(JobContext job

                                     ) throws IOException {

     long minSize = Math.max(getFormatMinSplitSize(), getMinSplitSize(job));

     long maxSize = getMaxSplitSize(job);

     // generate splits

     List<InputSplit> splits = new ArrayList<InputSplit>();

     List<FileStatus>files = listStatus(job);

     for (FileStatus file: files) {

       Path path = file.getPath();

       FileSystem fs = path.getFileSystem(job.getConfiguration());

       long length = file.getLen();

       BlockLocation[] blkLocations = fs.getFileBlockLocations(file, 0, length);

       if ((length != 0) && isSplitable(job, path)) {

         long blockSize = file.getBlockSize();

         long splitSize = computeSplitSize(blockSize, minSize, maxSize);

         long bytesRemaining = length;

         while (((double) bytesRemaining)/splitSize > SPLIT_SLOP) {

           int blkIndex = getBlockIndex(blkLocations, length-bytesRemaining);

           splits.add(new FileSplit(path, length-bytesRemaining, splitSize,

                                    blkLocations[blkIndex].getHosts()));

           bytesRemaining -= splitSize;

         }

         if (bytesRemaining != 0) {

           splits.add(new FileSplit(path, length-bytesRemaining, bytesRemaining,

                      blkLocations[blkLocations.length-1].getHosts()));

         }

       } else if (length != 0) {

         splits.add(new FileSplit(path, 0, length, blkLocations[0].getHosts()));

       } else {

         //Create empty hosts array for zero length files

         splits.add(new FileSplit(path, 0, length, new String[0]));

       }

     }

     // Save the number of input files in the job-conf

     job.getConfiguration().setLong(NUM_INPUT_FILES, files.size());

     LOG.debug("Total # of splits: " + splits.size());

     return splits;

   }

   protected long computeSplitSize(long blockSize, long minSize,

                                   long maxSize) {

     return Math.max(minSize, Math.min(maxSize, blockSize));

   }

测试一个输入文件大小为:0.52 KB 日志如下：

new :
blockSize:67108864 minSize:1 maxSize:9223372036854775807
splitSize:67108864

决定因素为 blockSize的大小.这个很容易理解

old:
blockSize:67108864 totalSize:529 numSplits:2 goalSize:264 minSplitSize:1 minSize:1
splitSize:264

numSplits为2，这个是在调用getSplits中传入的,这个地方要注意，经过查找发现这个参数为job.getNumMapTasks()的值如下

JobConf: public int getNumMapTasks() { return getInt("mapred.map.tasks", 1); }

mapred-default.xml中：

<property>
<name>mapred.map.tasks</name>
<value>2</value>
<description>The default number of map tasks per job.
Ignored when mapred.job.tracker is "local".
</description>
</property>

所以使用旧的API编写的MP程序，会产生2个map，而使用新的API则会产生1个map.

Hadoop map任务数量的计算的更多相关文章

如何确定 Hadoop map和reduce的个数--map和reduce数量之间的关系是什么？
1.map和reduce的数量过多会导致什么情况?2.Reduce可以通过什么设置来增加任务个数?3.一个task的map数量由谁来决定?4.一个task的reduce数量由谁来决定? 一般情况下,在 ...
hadoop map（分片）数量确定
之前学习hadoop的时候,一直希望可以调试hadoop源码,可是一直没找到有效的方法,今天在调试矩阵乘法的时候发现了调试的方法,所以在这里记录下来. 1)事情的起因是想在一个Job里设置map的数量 ...
Hadoop map reduce 任务数量优化
mapred.tasktracker.map.tasks.maximum 官方解释:The maximum number of map tasks that will be run simultan ...
深度分析如何在Hadoop中控制Map的数量
深度分析如何在Hadoop中控制Map的数量 guibin.beijing@gmail.com 很多文档中描述,Mapper的数量在默认情况下不可直接控制干预,因为Mapper的数量由输入的大小和个数 ...
深度分析如何在Hadoop中控制Map的数量(摘抄)
很多文档中描述,Mapper的数量在默认情况下不可直接控制干预,因为Mapper的数量由输入的大小和个数决定.在默认情况下,最终input占据了多少block,就应该启动多少个Mapper.如果输入的 ...
Hadoop2.6.0的FileInputFormat的任务切分原理分析（即如何控制FileInputFormat的map任务数量）
前言首先确保已经搭建好Hadoop集群环境,可以参考<Linux下Hadoop集群环境的搭建>一文的内容.我在测试mapreduce任务时,发现相比于使用Job.setNumReduce ...
Hadoop Map/Reduce
Hadoop Map/Reduce是一个使用简易的软件框架,基于它写出来的应用程序能够运行在由上千个商用机器组成的大型集群上,并以一种可靠容错的方式并行处理上T级别的数据集.一个Map/Reduce ...
(转载)Hadoop map reduce 过程获取环境变量
来源:http://www.linuxidc.com/Linux/2012-07/66337.htm 作者: lmc_wy Hadoop任务执行过程中,在每一个map节点或者reduce节点能获取 ...
Hadoop Map/Reduce教程
原文地址:http://hadoop.apache.org/docs/r1.0.4/cn/mapred_tutorial.html 目的先决条件概述输入与输出例子:WordCount v1.0 ...

随机推荐

linux shell 修改文本 sed
linux shell 修改文本echo [root@DSI tmp]# echo 'yhqt1 test1' > test1.txt [root@DSI tmp]# cat test1.txt ...
java 文件指针复位
BufferedReader br = new BufferedReader(new InputStreamReader( new FileInputStream("userremain.l ...
springcloud(六) Hystrix 熔断，限流
Hystrix 熔断: 首先仍然启动Eureka,这里就不说了. OrderController.java: package com.tuling.cloud.study.user.controlle ...
springboot 测试有注入HttpSession的bean
question: nested exception is java.lang.IllegalStateException: No thread-bound request found: Are yo ...
C#串口编程测试收发
原文:http://www.cnblogs.com/vsdot/archive/2013/04/23/3263348.html 基本传递方法:RS232传输要有1位起始位,8位数据位.1位校验位( ...
IntelliJ IDEA—IDEA2018.1激活方式
前言以前用过2015的版本,后面就没有使用了,现在又重新用起来了,突然发现激活好难,通过网上找破解方式,总算找到了一种可以实现破解的方法了.. 破解方式本人使用的是使用破解补丁的方式实现破解的,此 ...
MobaXterm 错行，乱码
最近使用MobaXterm ssh,发现进入ssh显示中文没问题.但如果用VIM编辑文件时如果有中文,修改插入操作有时就会有串行乱码情况,改vim编码也不行.都没有完美解决.最后发现只需要在MobaX ...
如果使用mybatis的逆向工程生成的po类及mapper，如果我们想要进行的对数据库的操作在mapper中没有对应的接口函数：比如生成的mapper接口中没有按照姓名及性别混合条件查询。我们的解决办法是：使用逆向工程生成的对应表的Example文件。
1.使用mybatis逆向工程生成的po类中包含UserExample文件(我的数据库表名为User). 2. 创建UserExample对象,然后对加入条件.对应的测试代码为: /* * 通过姓名和 ...
__slots__（面向对象进阶）
1.__slots__是什么:是一个类变量,变量值可以是列表,元祖,或者可迭代对象,也可以是一个字符串(意味着所有实例只有一个数据属性) 2.引子:使用点来访问属性本质就是在访问类或者对象的__dic ...
golang之切片
1.切片:切片是数组的一个引用,因此切片是引用类型 2.切片的长度可以改变,因此,切片是个可变的数组. 3.切片遍历方式和数组一样,可以用len()求长度 4.cap可以求出slice最大的容量,0& ...

Hadoop map任务数量的计算

Hadoop map任务数量的计算的更多相关文章

随机推荐

热门专题