一、Partitioner介绍

Partitioner的作用是对Mapper产生的中间结果进行分片，以便将同一分组的数据交给同一个Reduce处理，它直接影响Reduce阶段的负载均衡（个人理解：就是按照Reduce的个数，将Mapper产生的中间结果按照关键字送给不同的Reduce，Reduce对相同关键字的数据进行处理）。

Partitioner在Map/Reduce中所处的位置，如下：

二、Partitioner的源代码解析

将相同关键字Key送到哪个Reduce上处理。

 public abstract class Partitioner<KEY, VALUE> {

   /**

    * Get the partition number for a given key (hence record) given the total

    * number of partitions i.e. number of reduce-tasks for the job.

    * 通过给定总的分区数(即一般为Reduce的个数)，获得每个关键字Key所对应的分区（所对应的Reduce上）。

    * <p>Typically a hash function on a all or a subset of the key.</p>

    *

    * @param key the key to be partioned. 关键字

    * @param value the entry value.

    * @param numPartitions the total number of partitions. 一般是Reduce的个数

    * @return the partition number for the <code>key</code>. 哪个Reduce

    */

   public abstract int getPartition(KEY key, VALUE value, int numPartitions);

 }

三、常用的Partitioner方法

1、HashPartitioner

HashPartitioner是MapReduce中Partitioner的默认实现。他是基于哈希值的分片方法。实现如下：

 public class HashPartitioner<K, V> extends Partitioner<K, V> {

     /** Use {@link Object#hashCode()} to partition.

      * key.hashCode()得到关键字Key的哈希值，numReduceTasks为Reduce的个数

      * 这样可以将相同关键字Key的所有数据送给哪个Reduce

      **/

     public int getPartition(K key, V value, int numReduceTasks) {

         return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks;

     }

 }

2、TotalOrderPartitioner

TotalOrderPartitioner是基于区间的分片方法，通常用在全排序中。

Map/Reduce之间的Partitioner接口的更多相关文章

map/reduce之间的shuffle，partition，combiner过程的详解
Shuffle的本意是洗牌.混乱的意思,类似于java中的Collections.shuffle(List)方法,它会随机地打乱参数list里的元素顺序.MapReduce中的Shuffle过程.所谓 ...
MapReduce在Map端的Combiner和在Reduce端的Partitioner
1.Map端的Combiner. 通过单词计数WordCountApp.java的例子,如何在Map端设置Combiner... 只附录部分代码: /** * 以文本 * hello you * he ...
分布式基础学习（2）分布式计算系统（Map/Reduce）
二. 分布式计算(Map/Reduce) 分布式式计算,同样是一个宽泛的概念,在这里,它狭义的指代,按Google Map/Reduce框架所设计的分布式框架.在Hadoop中,分布式文件系统,很 ...
Hadoop Map/Reduce教程
原文地址:http://hadoop.apache.org/docs/r1.0.4/cn/mapred_tutorial.html 目的先决条件概述输入与输出例子:WordCount v1.0 ...
hadoop学习WordCount+Block+Split+Shuffle+Map+Reduce技术详解
转自:http://blog.csdn.net/yczws1/article/details/21899007 纯干货:通过WourdCount程序示例:详细讲解MapReduce之Block+Spl ...
分布式基础学习【二】 —— 分布式计算系统（Map/Reduce）
二. 分布式计算(Map/Reduce) 分布式式计算,同样是一个宽泛的概念,在这里,它狭义的指代,按Google Map/Reduce框架所设计的分布式框架.在Hadoop中,分布式文件系统,很大程 ...
Map/Reduce应用开发基础知识-摘录
Map/Reduce 这部分文档为用户将会面临的Map/Reduce框架中的各个环节提供了适当的细节.这应该会帮助用户更细粒度地去实现.配置和调优作业.然而,请注意每个类/接口的javadoc文档提供 ...
一步一步跟我学习hadoop(5)----hadoop Map/Reduce教程（2）
Map/Reduce用户界面本节为用户採用框架要面对的各个环节提供了具体的描写叙述,旨在与帮助用户对实现.配置和调优进行具体的设置.然而,开发时候还是要相应着API进行相关操作. 首先我们须要了解M ...
map reduce
作者:Coldwings链接:https://www.zhihu.com/question/29936822/answer/48586327来源:知乎著作权归作者所有,转载请联系作者获得授权. 简单的 ...

随机推荐

span标签里的内容在IE下显示，而在谷歌浏览器下不显示
有如下代码: <span id="spLicenseIncrease" style="color:red;">(51)</span> 在 ...
POJ1008Maya Calendar
http://poj.org/problem?id=1008&lang=default&change=true 这个题倒是不难,就是麻烦一点,但是还WA了几次都是因为处理天数的时候没处 ...
Apache与Tomcat整合
Apache与Tomcat整合一 Apache与Tomcat比较联系 apache支持静态页,tomcat支持动态的,比如servlet等. 一般使用apache+tomcat的话,apache ...
2410中断中SRCPND和INTPND清零的疑问
2410中断中SRCPND和INTPND清零的疑问SRCPND是中断源引脚寄存器,某个位被置1表示相应的中断被触发,但我们知道在同一时刻内系统可以触发若干个中断,只要中断被触发了,SRCPND的相应位 ...
C#四种文件流的区别（转）
1.FileStream类的读写操作 FileStream类可以对任意类型的文件进行读取操作,而且我们也可以按照需要指定每一次读取字节长度,以此减少内存的消耗,提高读取效率. 代码实例: //创建文件 ...
idea15 如何设置代码不自动折叠
IDEA默认情况下,如果方法体中只有一行,这个方法体会折叠起来,就像这种
MyEclipse 2014 + JSP+ Servlet
来自:http://blog.csdn.net/21aspnet/article/details/21867241 1.安装准备 1).下载安装MyEclipse2014,这已经是最新版本. 2).下 ...
深度卷积神经网络用于图像缩放Image Scaling using Deep Convolutional Neural Networks
This past summer I interned at Flipboard in Palo Alto, California. I worked on machine learning base ...
Java 并发基础
Java 并发基础标签 : Java基础线程简述线程是进程的执行部分,用来完成一定的任务; 线程拥有自己的堆栈,程序计数器和自己的局部变量,但不拥有系统资源, 他与其他线程共享父进程的共享资源及 ...
UVa 11526 H(n)
题意: long long H(int n){ long long res = 0; for( int i = 1; i <= n; i=i+1 ){ res = (res + n/i); } ...

Map/Reduce之间的Partitioner接口