reduce个数问题

reduce的数目到底和哪些因素有关

1、我们知道map的数量和文件数、文件大小、块大小、以及split大小有关，而reduce的数量跟哪些因素有关呢？
设置mapred.tasktracker.reduce.tasks.maximum的大小可以决定单个tasktracker一次性启动reduce的数目，但是不能决定总的reduce数目。

Job Counters

		Data-local map tasks=2

		Total time spent by all maps waiting after reserving slots (ms)=0

		Total time spent by all reduces waiting after reserving slots (ms)=0

		SLOTS_MILLIS_MAPS=10695

		SLOTS_MILLIS_REDUCES=29502

		Launched map tasks=2

		Launched reduce tasks=4

确实启动了4个reduce：看下输出：

diegoball@diegoball:~/IdeaProjects/test/build/classes$ hadoop fs -ls  /user/diegoball/join_ou1123

11/03/25 15:28:45 INFO security.Groups: Group mapping impl=org.apache.hadoop.security.ShellBasedUnixGroupsMapping; cacheTimeout=300000

11/03/25 15:28:45 WARN conf.Configuration: mapred.task.id is deprecated. Instead, use mapreduce.task.attempt.id

Found 5 items

-rw-r--r--   1 diegoball supergroup          0 2011-03-25 15:28 /user/diegoball/join_ou1123/_SUCCESS

-rw-r--r--   1 diegoball supergroup        124 2011-03-25 15:27 /user/diegoball/join_ou1123/part-00000

-rw-r--r--   1 diegoball supergroup          0 2011-03-25 15:27 /user/diegoball/join_ou1123/part-00001

-rw-r--r--   1 diegoball supergroup        214 2011-03-25 15:28 /user/diegoball/join_ou1123/part-00002

-rw-r--r--   1 diegoball supergroup          0 2011-03-25 15:28 /user/diegoball/join_ou1123/part-00003

只有2个reduce在干活。为什么呢？
shuffle的过程，需要根据key的值决定将这条<K,V> （map的输出）,送到哪一个reduce中去。送到哪一个reduce中去靠调用默认的org.apache.hadoop.mapred.lib.HashPartitioner的getPartition()方法来实现。
HashPartitioner类：

package org.apache.hadoop.mapred.lib;

import org.apache.hadoop.classification.InterfaceAudience;

import org.apache.hadoop.classification.InterfaceStability;

import org.apache.hadoop.mapred.Partitioner;

import org.apache.hadoop.mapred.JobConf;

/** Partition keys by their {@link Object#hashCode()}.

 */

@InterfaceAudience.Public

@InterfaceStability.Stable

public class HashPartitioner<K2, V2> implements Partitioner<K2, V2> {

  public void configure(JobConf job) {}

  /** Use {@link Object#hashCode()} to partition. */

  public int getPartition(K2 key, V2 value,

                          int numReduceTasks) {

    return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks;

  }

}

numReduceTasks的值在JobConf中可以设置。默认的是1：显然太小。
   这也是为什么默认的设置中总启动一个reduce的原因。
   返回与运算的结果和numReduceTasks求余。
   Mapreduce根据这个返回结果决定将这条<K,V>,送到哪一个reduce中去。

public int hashCode() {

    return (int)value;

  }

简简单单的返回了原值的整型值。
因为getPartition(K2 key, V2 value,int numReduceTask)返回的结果只有2个不同的值，所以最终只有2个reduce在干活。

package com.alipay.dw.test;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.mapred.JobConf;

import org.apache.hadoop.mapred.Partitioner;

/**

 * Created by IntelliJ IDEA.

 * User: diegoball

 * Date: 11-3-10

 * Time: 下午5:26

 * To change this template use File | Settings | File Templates.

 */

public class MyPartitioner implements Partitioner<IntWritable, IntWritable> {

	public int getPartition(IntWritable key, IntWritable value, int numPartitions) {

		/* Pretty ugly hard coded partitioning function. Don't do that in practice, it is just for the sake of understanding. */

		int nbOccurences = key.get();

		if (nbOccurences > 20051210)

			return 0;

		else

			return 1;

	}

	public void configure(JobConf arg0) {

	}

}

仅仅需要覆盖getPartition()方法就OK。通过：
conf.setPartitionerClass(MyPartitioner.class);
可以设置自定义的partition类。
同样由于之返回2个不同的值0，1，不管conf.setNumReduceTasks(4);设置多少个reduce，也同样只会有2个reduce在干活。

11/03/25 15:24:49 WARN conf.Configuration: mapred.task.id is deprecated. Instead, use mapreduce.task.attempt.id

Found 5 items

-rw-r--r--   1 diegoball supergroup          0 2011-03-25 15:23 /user/diegoball/opt.del/_SUCCESS

-rw-r--r--   1 diegoball supergroup      24546 2011-03-25 15:23 /user/diegoball/opt.del/part-00000

-rw-r--r--   1 diegoball supergroup      10241 2011-03-25 15:23 /user/diegoball/opt.del/part-00001

-rw-r--r--   1 diegoball supergroup          0 2011-03-25 15:23 /user/diegoball/opt.del/part-00002

-rw-r--r--   1 diegoball supergroup          0 2011-03-25 15:23 /user/diegoball/opt.del/part-00003

part-00000和part-00001是这2个reduce的输出，由于使用了自定义的MyPartitioner，所有key小于20051210的的<K，V>都会放到第一个reduce中处理，key大于20051210就会被放到第二个reduce中处理。
每个reduce的输出key又是经过key排序的，所以最终的结果集降序排列。

Job Counters

		Data-local map tasks=2

		Total time spent by all maps waiting after reserving slots (ms)=0

		Total time spent by all reduces waiting after reserving slots (ms)=0

		SLOTS_MILLIS_MAPS=16395

		SLOTS_MILLIS_REDUCES=3512

		Launched map tasks=2

		Launched reduce tasks=1

只启动了一个reduce。
(1)、当setNumReduceTasks( int a) a=1(即默认值),不管Partitioner返回不同值的个数b为多少，只启动1个reduce,这种情况下自定义的Partitioner类没有起到任何作用。
(2)、若a!=1:
a、当setNumReduceTasks( int a)里 a设置小于Partitioner返回不同值的个数b的话：

public int getPartition(IntWritable key, IntWritable value, int numPartitions) {

		/* Pretty ugly hard coded partitioning function. Don't do that in practice, it is just for the sake of understanding. */

		int nbOccurences = key.get();

		if (nbOccurences < 20051210)

			return 0;

		if (nbOccurences >= 20051210 && nbOccurences < 20061210)

			return 1;

		if (nbOccurences >= 20061210 && nbOccurences < 20081210)

			return 2;

		else

			return 3;

	}

同时设置setNumReduceTasks( 2)。

于是抛出异常：

11/03/25 17:03:41 INFO mapreduce.Job: Task Id : attempt_201103241018_0023_m_000000_1, Status : FAILED

java.io.IOException: Illegal partition for 20110116 (3)

	at org.apache.hadoop.mapred.MapTask$MapOutputBuffer.collect(MapTask.java:900)

	at org.apache.hadoop.mapred.MapTask$OldOutputCollector.collect(MapTask.java:508)

	at com.alipay.dw.test.KpiMapper.map(Unknown Source)

	at com.alipay.dw.test.KpiMapper.map(Unknown Source)

	at org.apache.hadoop.mapred.MapRunner.run(MapRunner.java:54)

	at org.apache.hadoop.mapred.MapTask.runOldMapper(MapTask.java:397)

	at org.apache.hadoop.mapred.MapTask.run(MapTask.java:330)

	at org.apache.hadoop.mapred.Child$4.run(Child.java:217)

	at java.security.AccessController.doPrivileged(Native Method)

	at javax.security.auth.Subject.doAs(Subject.java:396)

	at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:742)

	at org.apache.hadoop.mapred.Child.main(Child.java:211)

某些key没有找到所对应的reduce去处。原因是只启动了a个reduce。

b、当setNumReduceTasks( int a)里 a设置大于Partitioner返回不同值的个数b的话，同样会启动a个reduce，但是只有b个redurce上会得到数据。启动的其他的a-b个reduce浪费了。

c、理想状况是a=b，这样可以合理利用资源，负载更均衡。

总结和map partition函数和参数的设置有关

reduce个数问题的更多相关文章

3.控制hive map reduce个数
参考: https://blog.csdn.net/wuliusir/article/details/45010129 https://blog.csdn.net/zhong_han_jun/arti ...
map和reduce 个数的设定（Hive优化）经典
一. 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务. 主要的决定因素有: input的文件总个数,input的文件大小,集群设置 ...
reduce个数究竟和哪些因素有关
reduce的数目究竟和哪些因素有关 1.我们知道map的数量和文件数.文件大小.块大小.以及split大小有关,而reduce的数量跟哪些因素有关呢? 设置mapred.tasktracker.r ...
hadoop之 reduce个数控制
1.参数变更1.x 参数名 2.x 参数名 mapred.tasktracker.red ...
hadoop 2.2.0 关于map和reduce的个数的设置
关于hadoop中的map过程,我的理解是每一个map系统会开启一个JVM进程来处理,map之间相互并行,map函数内串行.这样的想法是否正确? 由于想在hadoop集群上算一个初始输入数据不多,但是 ...
【转】hive优化之--控制hive任务中的map数和reduce数
一. 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务. 主要的决定因素有: input的文件总个数,input的文件大小,集群设置 ...
Hive中的排序和分组（对map和reduce的影响，值得一看！）
order by order by 会对输入做全局排序,因此只有一个reducer(多个reducer无法保证全局有序)只有一个reducer,会导致当输入规模较大时,需要较长的计算时间. set ...
hive优化之------控制hive任务中的map数和reduce数
一. 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务. 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的 ...
hive优化之——控制hive任务中的map数和reduce数
一. 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务.主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文 ...

随机推荐

Git初次使用，记录自己看
Git官网下载:https://git-scm.com/downloads 官网如果太慢,可以去这下载:http://www.wmzhe.com/soft-38801.html,注意选择如下图地址下载 ...
java关于lombok（包括父类参数）
java关于lombok对bean对象进行自动设置使用说明使用方式注释类型 @NonNull @Data(常用) @NoArgsConstructor(常用)/@RequiredArgsCons ...
virtualbox虚拟机下的cdlinux找不到无线网卡的解决方法
virtualbox虚拟机下的cdlinux找不到无线网卡的解决方法自己解决了,记录一下. cdlinux 带reaver1.4的版本 http://pan.baidu.com/share/link ...
dataset datatable 转json
class ToJosn { #region dataTable转换成Json格式 /// <summary> /// dataTable转换成Json格式 /// </summar ...
cycloneii LAB-wide signals
8 available LAB-width signals - 2 clocks - 2 clock enables - 2 asynchronous clears // - 1 asynchrono ...
自定义StringBuilder类拼接非空字符串
主要目的: 为了拼接多个非空字符串,还能达到链式的装X效果这里不考虑线程安全,所以使用StringBuilder快速拼接非空内容,中间用","作为分隔. 代码如下: package ...
webstorm中使用git管理服务器上的代码——入门级
一.首先要确保电脑已经成功安装好git了.(记住git的安装位置) 二.这里需要给webstorm配置一下:依次点击:file –> Settings –> Version Control ...
字符数组拷贝与strcpy函数
代码: ],str2[]; ;i<;i++) { str1[i]='a'; } strcpy(str2,str1); 让找出错误的地方. 先来看下strcpy函数: 使用格式:char* str ...
杂项-公司：Oracle
ylbtech-杂项-公司:Oracle 甲骨文公司,全称甲骨文股份有限公司(甲骨文软件系统有限公司),是全球最大的企业级软件公司,总部位于美国加利福尼亚州的红木滩.1989年正式进入中国市场.201 ...
分布式锁的Redis实现
当我们开始开发项目部署运行时,项目规模不大,只是在一个JVM实例中运行,对同一资源的并发访问用JDK自带的锁机制就可以解决资源同时访问的问题.而随着项目的不断发展,单体应用已经无法满足日益增长的访问需 ...

reduce个数问题

reduce个数问题的更多相关文章

随机推荐

热门专题