Hadoop中maptask数量的决定因素

只为你笑 2024-10-28 17:09:58 原文

刚开始接触hadoop平台的时候部分初学者对于mapreduce中的maptask的数量是怎么确定的可能有点迷惑，如果看了jobclient里面的maptask初始化的那段源码，那么就比较清楚了，MapTask的数量是由InputFormat来指定的，InputFormat生成多少个InputSpilt就会有多少个task。

因此，如果剩余Map slot的数量大于InputSpilt的数量，那么就启动的Map数量就是InputSplit的数量。

如果剩余Map slot的数量小于InputSpilt的数量，那么就启动的Map数量就是剩余的Map slot数量。

下面来看看常用的InputFormat都是怎么生成InputSplit的。

FileInputFormat（平时常用的TextInputFormat和KeyValueTextInputFormat都继承自它）会设置一个hiddenFileFilter把以_和.开头的文件过滤掉，遍历input里面的文件及其子目录中的所有文件，然后对于每个文件，默认是一个block生成一个InputSplit。因此Map的数量>=文件数量，跟block size有关系，会尽量按block来切分。

当我们利用mapreduce来对hbase进行查询的时候，会采用hbase自带的TableInputFormat格式，TableInputFormat是默认使用的HBase的InputStream，继承自TableInputFormatBase。一个InputSplit正好对应了一个Region，因此Map的数量取决于table有多少个region。

转载来自：http://www.cnblogs www.ysgj1688.com www.feifanyule.cn/ com/xiangyangzhu/

1、MapReduce作业中Map Task数目的确定：

1）MapReduce从HDFS中分割读取Split文件，通过Inputformat交给Mapper来处理。Split是MapReduce中最小的计算单元，一个Split文件对应一个Map Task
2）默认情况下HDFS种的一个block，对应一个Split。
3）当执行Wordcount时：
   （1）一个输入文件小雨64MB，默认情况下则保存在hdfs上的一个block中，对应一个Split文件，所以将产生一个Map Task。
   （2）如果输入一个文件为150MB，默认情况下保存在HDFS上的三个block中，对应三个Split文件，所以将产生三个Map Task。
   （3）如果有输入三个文件都小于64MB，默认情况下会保存在三个不同的block中，也将产生三个Map Task。
4）用户可自行指定block与split的关系，HDSF中的一个block，一个Split也可以对应多个block。Split与block的关系都是一对多的关系。
5）总结MapReduce作业中的Map Task数目是由：
   （1）输入文件的个数与大小
   （2）hadoop设置split与block的关系来决定。

2、MapReduce作业中Reduce Task数目的指定：

1）JobClient类中submitJobInternal方法中指定：int reduces=jobCopy.getNumReduceTasks();

2）而JobConf类中，public int getNumReduceTasks(www.thd178.com){return geInt("mapred.reduce.tasks",1)}
因此，Reduce Task数目是由mapred.reduce.tasks指定，如果不指定则默认为1.
这就很好解释了wordcount程序中的reduce数量为1的问题，这时候map阶段的partition（分区）就为1了。

Hadoop中maptask数量的决定因素的更多相关文章

深度分析如何在Hadoop中控制Map的数量
深度分析如何在Hadoop中控制Map的数量 guibin.beijing@gmail.com 很多文档中描述,Mapper的数量在默认情况下不可直接控制干预,因为Mapper的数量由输入的大小和个数 ...
hadoop中map和reduce的数量设置
hadoop中map和reduce的数量设置,有以下几种方式来设置一.mapred-default.xml 这个文件包含主要的你的站点定制的Hadoop.尽管文件名以mapred开头,通过它可以控制 ...
深度分析如何在Hadoop中控制Map的数量(摘抄)
很多文档中描述,Mapper的数量在默认情况下不可直接控制干预,因为Mapper的数量由输入的大小和个数决定.在默认情况下,最终input占据了多少block,就应该启动多少个Mapper.如果输入的 ...
Hadoop介绍-4.Hadoop中NameNode、DataNode、Secondary、NameNode、JobTracker TaskTracker
Hadoop是一个能够对大量数据进行分布式处理的软体框架,实现了Google的MapReduce编程模型和框架,能够把应用程式分割成许多的小的工作单元,并把这些单元放到任何集群节点上执行.在MapR ...
hadoop中Text类与 java中String类的区别
hadoop 中的Text类与java中的String类感觉上用法是相似的,但两者在编码格式和访问方式上还是有些差别的,要说明这个问题,首先得了解几个概念: 字符集: 是一个系统支持的所有抽象字符的 ...
Hadoop 中疑问解析
Hadoop 中疑问解析 FAQ问题剖析一.HDFS 文件备份与数据安全性分析1 HDFS 原理分析1.1 Hdfs master/slave模型 hdfs采用的是master/slave模型,一个 ...
Hadoop中java.lang.ClassCastException: partition解决方法
java.lang.ClassCastException: partition.KpiWritable cannot be cast to org.apache.hadoop.io.LongWrita ...
hadoop错误org.apache.hadoop.mapred.MapTask$NewOutputCollector@17bda0f2
错误: org.apache.hadoop.mapred.MapTask$NewOutputCollector@17bda0f2 java.io.IOException: Spill failed 错 ...
hadoop错误Ignoring exception during close for org.apache.hadoop.mapred.MapTask$NewOutputCollector@17bda0f2 java.io.IOException Spill failed
1.错误 Ignoring exception during close for org.apache.hadoop.mapred.MapTask$NewOutputCollector@17bd ...

随机推荐

C++ 类型转换(conv.)
隐式类型转换总结自:隐式类型转换&算数运算符定义:隐式类型转换是指使用了与表达式规定或当前语境不相符的类型时所进行的类型转换,但是要注意,可能会存在转换出现歧义,从而无法通过编译;一切带有 ...
【操作系统作业-lab4】 linux 多线程编程和调度器
linux多线程编程参考:https://blog.csdn.net/weibo1230123/article/details/81410241 https://blog.csdn.net/skyr ...
give me something new 无用但有趣
屏保系列 http://www.asty.org/cmatrix/dist/cmatrix-1.2a.tar.gz //数码雨 libaa-bin //燃烧海洋馆 http://search.cp ...
OpenLDAP部署目录服务
文档信息目的:搭建一套完整的OpenLDAP系统,实现账号的统一管理. 1:OpenLDAP服务端的搭建 ...
(转)零基础学习 Hadoop 该如何下手？
推荐一些Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Amb ...
C# Newtonsoft.Json 解析多嵌套json 进行反序列化
[ { ", "time": "2016-09-09 12:23:33", ", "freeShipping": tru ...
安装python虚拟运行环境，linux下轻松切换python2和python3
一.查询系统采用的python版本 $ python --version Python 3.7.3 系统采用的python版本为3.7.3 以下查询py3和py2的目录: $ which python ...
iar注释快捷键
选中多行后注释快捷键:Ctrl+K 取消多行注释快捷键:Ctrl+Shift+K
浅谈UWB（超宽带）室内定位技术（转载）
技术背景随着无线通信技术的发展和数据处理能力的提高,基于位置的服务成为最有前途的互联网业务之一.无论移动在室内还是室外环境下,快速准确地获得移动终端的位置信息和提供位置服务的需求变得日益迫切.通信和 ...
状压DP详解（位运算）
前言: 状压DP是一种非常暴力的做法(有一些可以排除某些状态的除外),例如dp[S][v]中,S可以代表已经访问过的顶点的集合,v可以代表当前所在的顶点为v.S代表的就是一种状态(二进制表示),比如 ...