MapReduce Map数 reduce数设置

JobConf.setNumMapTasks(n)是有意义的，结合block size会具体影响到map任务的个数，详见FileInputFormat.getSplits源码。假设没有设置mapred.min.split.size，缺省为1的情况下，针对每个文件会按照min (totalsize[所有文件总大小]/mapnum[jobconf设置的mapnum], blocksize)为大小来拆分，并不是说文件小于block size就不去拆分。

2.http://hadoop.hadoopor.com/thread-238-1-1.html
不知道你是要提高整个集群的map/reduce任务数，还是单个节点可并行运行的map/reduce任务数？对于前者是一般只设置reduce任务数，而map任务数是由Splits个数决定的; 对于后者，是可以在配置中设置的，分别为：mapred.tasktracker.map.tasks.maximum
mapred.tasktracker.reduce.tasks.maximum

另外，还有个参数mapred.jobtracker.taskScheduler.maxRunningTasksPerJob，用来控制一个job最大并行tasks数，这个是指在集群最大并行数。

3.我的理解：具体看FileInputFormat.java的代码
map tasks的个数只要是看splitSize，一个文件根据splitSize分成多少份就有多少个map tasks。而splitSize的计算(看FileInputFormat的源码)：splitSize = Math.max(minSize, Math.min(maxSize, blockSize));而
minSize = Math.max(getFormatMinSplitSize(), getMinSplitSize(job));即是某种格式的文件的最小分割size(如看源码sequenceFile是2000)和整个job配置的最小分割size（即mapred-default.xml中mapred.min.split.size的值）之间的较大的那个
maxSize是mapred.max.split.size（mapred-default.xml中竟然没有，我试了一下，在mapred-site.xml中配置覆盖也没有用，具体用法参照http://osdir.com/ml/mahout-user.lucene.apache.org/2010-01/msg00231.html用参数配置： hadoop jar /root/mahout-core-0.2.job org.apache.mahout.clustering.lda.LDADriver -Dmapred.max.split.size=900...）,如果不配置，默认值是long类型的最大值。（mapred.max.split.size不推荐配置（试））
blockSize是即hdfs-default.xml中dfs.block.size的值,可在hdf-site.xml中覆盖.这个值必须是512的倍数，如果想要数量更多的map的tasks的个数，可以把dfs.block.size设得小一点，512，1024等等，反正上面的公式保证了即使你这个blocksize设得比某种格式的文件的最小分割size要小，最后还是选者这种格式的最小分割size，如果blocksize比它大，则选用blocksize作为splitSize的大小.

总结：如果想要多一点的map tasks，(1)可以设置dfs.block.size小一点，sequenceFile推荐2048。。。（试）在eclipse运行时，dfs.block.size是由eclipse中mapreduce的设置（dfs.block.size）生效的，而不是hadoop的conf中的配置文件，但是如果用终端hadoop jar命令跑的话，应该是由hadoop的conf中的配置文件决定生效的
(2)推荐：可以分成多个sequenceFile来作为输入（把上层目录作为输入路径即可，上层目录下包括的必为清一色的sequenceFile）,输入路径 "./"或指定上层目录文件名

reduce task的个数：

可通过job.setNumReduceTasks(n);设定。多个reduce task的话就会有多个reduce结果，part-r-00000, part-r-00001, ...part-r-0000n

增加task的数量，一方面增加了系统的开销，另一方面增加了负载平衡和减小了任务失败的代价；
map task的数量即mapred.map.tasks的参数值，用户不能直接设置这个参数。Input Split的大小，决定了一个Job拥有多少个map。默认input split的大小是64M（与dfs.block.size的默认值相同）。然而，如果输入的数据量巨大，那么默认的64M的block会有几万甚至几十万的Map Task，集群的网络传输会很大，最严重的是给Job Tracker的调度、队列、内存都会带来很大压力。mapred.min.split.size这个配置项决定了每个 Input Split的最小值，用户可以修改这个参数，从而改变map task的数量。
一个恰当的map并行度是大约每个节点10-100个map，且最好每个map的执行时间至少一分钟。
reduce task的数量由mapred.reduce.tasks这个参数设定，默认值是1。
合适的reduce task数量是0.95或者0.75*( nodes * mapred.tasktracker.reduce.tasks.maximum), 其中，mapred.tasktracker.tasks.reduce.maximum的数量一般设置为各节点cpu core数量，即能同时计算的slot数量。对于0.95，当map结束时，所有的reduce能够立即启动；对于1.75，较快的节点结束第一轮reduce后，可以开始第二轮的reduce任务，从而提高负载均衡

由Hive来执行相关的查询

hadoop中默认的mapred.tasktracker.map.tasks.maximum设置是2

也即：每一个tasktracker同时运行的map任务数为2

照此默认设置，查询80天某用户的操作日志，耗时5mins, 45sec

经过测试，发现将mapred.tasktracker.map.tasks.maximum设置为节点的cpu cores数目或者数目减1比较合适

此时的运行效率最高，大概花费3mins, 25sec

我们现在的机器都是8核的，所以最终配置如下：

mapred.tasktracker.map.tasks.maximum
    8
    The maximum number of map tasks that will be run
    simultaneously by a task tracker.

而对于mapred.map.tasks（每个job的map任务数）值，hadoop默认值也为2

可以在执行hive前，通过set mapred.map.tasks=24来设定

但由于使用hive，会操作多个input文件，所以hive默认会把map的任务数设置成输入的文件数目

即使你通过set设置了数目，也不起作用…

MapReduce Map数 reduce数设置的更多相关文章

Hadoop 中关于 map，reduce 数量设置
map和reduce是hadoop的核心功能,hadoop正是通过多个map和reduce的并行运行来实现任务的分布式并行计算,从这个观点来看,如果将map和reduce的数量设置为1,那么用户的任务 ...
Hadoop MapReduce概念学习系列之map并发任务数和reduce并发任务数的原理和代码实现（十八）
首先,来说的是,reduce并发任务数,默认是1. 即,在jps后,出现一个yarnchild.之后又消失. 这里,我控制reduce并发任务数6 有多少个reduce的并发任务数可以控制,但有多少个 ...
Hadoop如何计算map数和reduce数
阅读本文可以带着下面问题: 1.map和reduce的数量过多会导致什么情况? 2.Reduce可以通过什么设置来增加任务个数? 3.一个task的map数量由谁来决定? 4.一个task的reduc ...
【转】hive优化之--控制hive任务中的map数和reduce数
一. 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务. 主要的决定因素有: input的文件总个数,input的文件大小,集群设置 ...
hive优化之------控制hive任务中的map数和reduce数
一. 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务. 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的 ...
hive优化之——控制hive任务中的map数和reduce数
一. 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务.主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文 ...
Hive性能优化--map数和reduce数
转自http://superlxw1234.iteye.com/blog/1582880 一. 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多 ...
Hive任务优化--控制hive任务中的map数和reduce数
一. 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务.主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文 ...
MapReduce剖析笔记之五：Map与Reduce任务分配过程
在上一节分析了TaskTracker和JobTracker之间通过周期的心跳消息获取任务分配结果的过程.中间留了一个问题,就是任务到底是怎么分配的.任务的分配自然是由JobTracker做出来的,具体 ...

随机推荐

javascript——10章 DOM
1.节点关系 (1)childNodes:返回节点的子节点集合返回值:NodeList 对象,表示节点集合. 注:childNodes只能取到子级,不能取到子级的子级. childNodes所有节点 ...
开源流媒体服务器SRS学习笔记(2) - rtmp / http-flv / hls 协议配置及跨域问题
对rtmp/http-flv/hls这三种协议不熟悉的同学,强烈建议先看看网友写的这篇文章科普下:理解RTMP.HttpFlv和HLS的正确姿势 . srs可以同时支持这3种协议,只要修改conf ...
C#模板引擎NVelocity实战项目演练
一.背景需求很多人在做邮件模板.短信模板的时候,都是使用特殊标识的字符串进行占位,然后在后台代码中进行Replace字符串,如果遇到表格形式的内容,则需要在后台进行遍历数据集合,进行字符串的拼接,继 ...
异常处理汇总 ~ 修正果带着你的Code飞奔吧！
异常处理汇总-运维系列 http://www.cnblogs.com/dunitian/p/4522983.html 异常处理汇总-开发工具 http://www.cnblogs.com/dunit ...
git stash命令详解
git stash命令用于将更改储藏在脏工作目录中. 使用语法 git stash list [<options>] git stash show [<stash>] git ...
机器学习中Batch Size、Iteration和Epoch的概念
Batch Size:批尺寸.机器学习中参数更新的方法有三种: (1)Batch Gradient Descent,批梯度下降,遍历全部数据集计算一次损失函数,进行一次参数更新,这样得到的方向能够更加 ...
go微服务框架go-micro深度学习(五) stream 调用过程详解
上一篇写了一下rpc调用过程的实现方式,简单来说就是服务端把实现了接口的结构体对象进行反射,抽取方法,签名,保存,客户端调用的时候go-micro封请求数据,服务端接收到请求时,找到需要调用调 ...
画图必备numpy函数
给定一堆数字,需要统计这些数字中每个数字的个数. 如果这些数字是整数,那自然可以精确统计出来. 如果这些数字是浮点数,如果精确统计会发现几乎每个数字都只出现了一次.所以浮点数就要通过区间的方式进行统计 ...
C#版Websocket实例
C#版Websocket实例 Demo地址:www.awbeci.xyz websocket有java.nodejs.python,Php等等版本,我使用的是C#版本,服务器端是Fleck,git ...
小米Pro 安装苹果系统
参考 http://www.miui.com/thread-11363672-1-1.html http://www.miui.com/thread-7601066-1-1.html https:// ...

MapReduce Map数 reduce数设置

MapReduce Map数 reduce数设置的更多相关文章

随机推荐

热门专题