reduce个数究竟和哪些因素有关

reduce的数目究竟和哪些因素有关

1、我们知道map的数量和文件数、文件大小、块大小、以及split大小有关，而reduce的数量跟哪些因素有关呢？

设置mapred.tasktracker.reduce.tasks.maximum的大小能够决定单个tasktracker一次性启动reduce的数目，可是不能决定总的reduce数目。

conf.setNumReduceTasks(4);JobConf对象的这种方法能够用来设定总的reduce的数目，看下Job Counters的统计：

	Job Counters

		Data-local map tasks=2

		Total time spent by all maps waiting after reserving slots (ms)=0

		Total time spent by all reduces waiting after reserving slots (ms)=0

		SLOTS_MILLIS_MAPS=10695

		SLOTS_MILLIS_REDUCES=29502

		Launched map tasks=2

		Launched reduce tasks=4

确实启动了4个reduce：看下输出：

diegoball@diegoball:~/IdeaProjects/test/build/classes$ hadoop fs -ls  /user/diegoball/join_ou1123

11/03/25 15:28:45 INFO security.Groups: Group mapping impl=org.apache.hadoop.security.ShellBasedUnixGroupsMapping; cacheTimeout=300000

11/03/25 15:28:45 WARN conf.Configuration: mapred.task.id is deprecated. Instead, use mapreduce.task.attempt.id

Found 5 items

-rw-r--r--   1 diegoball supergroup          0 2011-03-25 15:28 /user/diegoball/join_ou1123/_SUCCESS

-rw-r--r--   1 diegoball supergroup        124 2011-03-25 15:27 /user/diegoball/join_ou1123/part-00000

-rw-r--r--   1 diegoball supergroup          0 2011-03-25 15:27 /user/diegoball/join_ou1123/part-00001

-rw-r--r--   1 diegoball supergroup        214 2011-03-25 15:28 /user/diegoball/join_ou1123/part-00002

-rw-r--r--   1 diegoball supergroup          0 2011-03-25 15:28 /user/diegoball/join_ou1123/part-00003

仅仅有2个reduce在干活。为什么呢？

shuffle的过程。须要依据key的值决定将这条<K,V> （map的输出）,送到哪一个reduce中去。送到哪一个reduce中去靠调用默认的org.apache.hadoop.mapred.lib.HashPartitioner的getPartition()方法来实现。

HashPartitioner类：

package org.apache.hadoop.mapred.lib;

import org.apache.hadoop.classification.InterfaceAudience;

import org.apache.hadoop.classification.InterfaceStability;

import org.apache.hadoop.mapred.Partitioner;

import org.apache.hadoop.mapred.JobConf;

/** Partition keys by their {@link Object#hashCode()}.

 */

@InterfaceAudience.Public

@InterfaceStability.Stable

public class HashPartitioner<K2, V2> implements Partitioner<K2, V2> {

  public void configure(JobConf job) {}

  /** Use {@link Object#hashCode()} to partition. */

  public int getPartition(K2 key, V2 value,

                          int numReduceTasks) {

    return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks;

  }

}

numReduceTasks的值在JobConf中能够设置。

默认的是1：显然太小。

这也是为什么默认的设置中总启动一个reduce的原因。

返回与运算的结果和numReduceTasks求余。

Mapreduce依据这个返回结果决定将这条<K,V>,送到哪一个reduce中去。

key传入的是LongWritable类型，看下这个LongWritable类的hashcode()方法：

 public int hashCode() {

    return (int)value;

  }

简简单单的返回了原值的整型值。

由于getPartition(K2 key, V2 value,int numReduceTask)返回的结果仅仅有2个不同的值，所以终于仅仅有2个reduce在干活。

HashPartitioner是默认的partition类。我们也能够自己定义partition类：

 package com.alipay.dw.test;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.mapred.JobConf;

import org.apache.hadoop.mapred.Partitioner;

/**

 * Created by IntelliJ IDEA.

 * User: diegoball

 * Date: 11-3-10

 * Time: 下午5:26

 * To change this template use File | Settings | File Templates.

 */

public class MyPartitioner implements Partitioner<IntWritable, IntWritable> {

    public int getPartition(IntWritable key, IntWritable value, int numPartitions) {

        /* Pretty ugly hard coded partitioning function. Don't do that in practice, it is just for the sake of understanding. */

        int nbOccurences = key.get();

        if (nbOccurences > 20051210)

            return 0;

        else

            return 1;

    }

    public void configure(JobConf arg0) {

    }

}

只须要覆盖getPartition()方法就OK。

通过：

conf.setPartitionerClass(MyPartitioner.class);

能够设置自己定义的partition类。

相同因为之返回2个不同的值0，1，无论conf.setNumReduceTasks(4);设置多少个reduce，也相同仅仅会有2个reduce在干活。

因为每一个reduce的输出key都是经过排序的，上述自己定义的Partitioner还能够达到排序结果集的目的：

11/03/25 15:24:49 WARN conf.Configuration: mapred.task.id is deprecated. Instead, use mapreduce.task.attempt.id

Found 5 items

-rw-r--r--   1 diegoball supergroup          0 2011-03-25 15:23 /user/diegoball/opt.del/_SUCCESS

-rw-r--r--   1 diegoball supergroup      24546 2011-03-25 15:23 /user/diegoball/opt.del/part-00000

-rw-r--r--   1 diegoball supergroup      10241 2011-03-25 15:23 /user/diegoball/opt.del/part-00001

-rw-r--r--   1 diegoball supergroup          0 2011-03-25 15:23 /user/diegoball/opt.del/part-00002

-rw-r--r--   1 diegoball supergroup          0 2011-03-25 15:23 /user/diegoball/opt.del/part-00003

part-00000和part-00001是这2个reduce的输出，因为使用了自己定义的MyPartitioner，全部key小于20051210的的<K，V>都会放到第一个reduce中处理。key大于20051210就会被放到第二个reduce中处理。

每一个reduce的输出key又是经过key排序的，所以终于的结果集降序排列。

可是假设使用上面自己定义的partition类，又conf.setNumReduceTasks(1)的话。会如何？看下Job Counters：

	Job Counters

		Data-local map tasks=2

		Total time spent by all maps waiting after reserving slots (ms)=0

		Total time spent by all reduces waiting after reserving slots (ms)=0

		SLOTS_MILLIS_MAPS=16395

		SLOTS_MILLIS_REDUCES=3512

		Launched map tasks=2

		Launched reduce tasks=1

仅仅启动了一个reduce。

(1)、当setNumReduceTasks( int a) a=1(即默认值),无论Partitioner返回不同值的个数b为多少，仅仅启动1个reduce,这样的情况下自己定义的Partitioner类没有起到不论什么作用。

(2)、若a!=1:

a、当setNumReduceTasks( int a)里 a设置小于Partitioner返回不同值的个数b的话：

    public int getPartition(IntWritable key, IntWritable value, int numPartitions) {

        /* Pretty ugly hard coded partitioning function. Don't do that in practice, it is just for the sake of understanding. */

        int nbOccurences = key.get();

        if (nbOccurences < 20051210)

            return 0;

        if (nbOccurences >= 20051210 && nbOccurences < 20061210)

            return 1;

        if (nbOccurences >= 20061210 && nbOccurences < 20081210)

            return 2;

        else

            return 3;

    }

同一时候设置setNumReduceTasks( 2)。

于是抛出异常：

  11/03/25 17:03:41 INFO mapreduce.Job: Task Id : attempt_201103241018_0023_m_000000_1, Status : FAILED

java.io.IOException: Illegal partition for 20110116 (3)

	at org.apache.hadoop.mapred.MapTask$MapOutputBuffer.collect(MapTask.java:900)

	at org.apache.hadoop.mapred.MapTask$OldOutputCollector.collect(MapTask.java:508)

	at com.alipay.dw.test.KpiMapper.map(Unknown Source)

	at com.alipay.dw.test.KpiMapper.map(Unknown Source)

	at org.apache.hadoop.mapred.MapRunner.run(MapRunner.java:54)

	at org.apache.hadoop.mapred.MapTask.runOldMapper(MapTask.java:397)

	at org.apache.hadoop.mapred.MapTask.run(MapTask.java:330)

	at org.apache.hadoop.mapred.Child$4.run(Child.java:217)

	at java.security.AccessController.doPrivileged(Native Method)

	at javax.security.auth.Subject.doAs(Subject.java:396)

	at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:742)

	at org.apache.hadoop.mapred.Child.main(Child.java:211)

某些key没有找到所相应的reduce去处。

原因是仅仅启动了a个reduce。

b、当setNumReduceTasks( int a)里 a设置大于Partitioner返回不同值的个数b的话，相同会启动a个reduce。可是仅仅有b个redurce上会得到数据。启动的其它的a-b个reduce浪费了。

c、理想状况是a=b，这样能够合理利用资源，负载更均衡。

reduce个数究竟和哪些因素有关的更多相关文章

reduce个数问题
reduce的数目到底和哪些因素有关 1.我们知道map的数量和文件数.文件大小.块大小.以及split大小有关,而reduce的数量跟哪些因素有关呢? 设置mapred.tasktracker.r ...
3.控制hive map reduce个数
参考: https://blog.csdn.net/wuliusir/article/details/45010129 https://blog.csdn.net/zhong_han_jun/arti ...
map和reduce 个数的设定（Hive优化）经典
一. 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务. 主要的决定因素有: input的文件总个数,input的文件大小,集群设置 ...
hadoop之 reduce个数控制
1.参数变更1.x 参数名 2.x 参数名 mapred.tasktracker.red ...
reduce的数目到底和哪些因素有关
reduce的数目到底和哪些因素有关 1.我们知道map的数量和文件数.文件大小.块大小.以及split大小有关,而reduce的数量跟哪些因素有关呢? 设置mapred.tasktracker. ...
Job流程：决定map个数的因素
此文紧接Job流程:提交MR-Job过程.上一篇分析可以看出,MR-Job提交过程的核心代码在于 JobSubmitter 类的 submitJobInternal()方法.本文就由此方法的这一句代码 ...
[源码解析] Flink的groupBy和reduce究竟做了什么
[源码解析] Flink的groupBy和reduce究竟做了什么目录 [源码解析] Flink的groupBy和reduce究竟做了什么 0x00 摘要 0x01 问题和概括 1.1 问题 1.2 ...
hadoop 2.2.0 关于map和reduce的个数的设置
关于hadoop中的map过程,我的理解是每一个map系统会开启一个JVM进程来处理,map之间相互并行,map函数内串行.这样的想法是否正确? 由于想在hadoop集群上算一个初始输入数据不多,但是 ...
【转】hive优化之--控制hive任务中的map数和reduce数
一. 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务. 主要的决定因素有: input的文件总个数,input的文件大小,集群设置 ...

随机推荐

安卓Launcher之获取手机安装的应用列表，安卓launcher
Launcher中最主要的就是获取所有应用列表的入口以及图标,一般获取的方法有两种: PackageInfo ResolveInfo 运行获取所有APP的Launcher并且允许进行点击事件,进入到应 ...
VM添加e1000e驱动网卡
关闭虚拟机打开VMware 虚拟机配置 (.vmx),如
android——ListView功能的实现
1.main.xml <?xml version="1.0" encoding="utf-8"?> <LinearLayout xmlns:a ...
Swift编程语言学习11—— 枚举全局变量、局部变量与类型属性
全局变量和局部变量计算属性和属性监视器所描写叙述的模式也能够用于全局变量和局部变量,全局变量是在函数.方法.闭包或不论什么类型之外定义的变量,局部变量是在函数.方法或闭包内部定义的变量. 前面章节提 ...
Python笔记之基本的语法
1 变量和赋值 Python是动态类型语言,不须要预先声明变量的类型.变量的类型在赋值的那一刻被初始化. Python变量名是大写和小写敏感的,即"cAsE"与"CaSe ...
仿OpenStack开发云计算管理软件
仿OpenStack开发云计算管理软件使用Python语言开发一套类似OpenStack的云计算管理平台LouCloud,具备基本的用户,服务器,镜像与虚拟机管理功能,学习IaaS,虚拟化,Lib ...
Boost 库Program Options--第二篇
程式執行參數處理函式庫:Boost Program Options(2/N) 前一篇已經大致解釋了 Boost Program Options 基本上的使用方法.而這一篇,則來細講一下選項描述(opt ...
Savitzky-Golay滤波器（2）
前几天写过一篇介绍 Savitzky-Golay滤波器的文章, 没想到最近做项目还真的用上了. 因此就顺便写了个 C 语言的自动计算生成 SG 滤波器系数的程序.利用这里的代码可以生成任意阶数的 SG ...
四大流行的java连接池之BoneCP篇
BoneCP 是一个开源的快速的 JDBC 连接池.BoneCP很小,只有四十几K(运行时需要log4j和Google Collections的支持,这二者加起来就不小了),而相比之下C3P0 要六百 ...
PCB设计资料：看到最后才知道是福利
參考资料通过以下的关键词直接从网络上Google或Baidu就能非常easy的找到以下的资料,这里仅仅是以參考文献的方式做一个整理以及简单的说明. 刘雅芳,张俊辉. 抗干扰角度分析六层板的布线技巧. ...

reduce个数究竟和哪些因素有关

reduce个数究竟和哪些因素有关的更多相关文章

随机推荐

热门专题