Hadoop Mapreduce 中的Partitioner

Partitioner的作用的对Mapper产生的中间结果进行分片，以便将同一分组的数据交给同一个Reduce处理，Partitioner直接影响Reduce阶段的负载均衡。

MapReduce提供了两个Partitioner实现：HashPartitioner和TotalOederPartitioner。

HashPartitioner是默认实现，实现了一种基于哈希值的分片方法，代码如下：

public int getPartition(K2 key, V2 value, int numReduceTasks) {

     return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks;

}

TotalOrderPartitioner提供了一种基于区间的分片方法，通常用在数据全排序中。

在MapReduce环境中，容易想到的全排序方案是归并排序，即在Map阶段，每个Map Task进行局部排序；在Reduce阶段，启动一个Reduce Task进行全局排序。由于作业只能有一个Reduce Task，因而reduce阶段会成为作业的瓶颈。

TotalOrderPartitioner能够按照大小将数据分成若干个区间（分片），并保证后一个区间的所有数据均大于前一个区间的所有数据。全排序的步骤如下：

数据采样。在Client端通过采样获取分片的分割点。Hadoop自带了几个采样算法，如IntercalSampler、RandomSampler、SplitSampler等。
Map阶段。本阶段涉及两个组件，分别是Mapper和Partitioner。其中，Mapper可采用IdentityMapper，直接将输入数据输出，但Partitioner必须选用TotalOrderPartitioner，它将步骤1中获取的分割点保存到trie树中以便快速定位任意一个记录所在的区间，这样，每个Map Task产生R（Reduce Task 个数）个区间，且区间有序。TotalOrderPartitioner通过trie树查找每条记录所对应的Reduce Task编号。
Reduce阶段。每个Reducer对分配到的区间数据进行局部排序，最终得到全排序数据。

基于TotalOrderPartitioner全排序的效率跟key分布规律和采样算法有直接关系；key值分布越均匀且采样越具有代表性，则Reduce Task负载越均衡，全排序效率越高。

Hadoop Mapreduce 中的Partitioner的更多相关文章

MapReduce 示例：减少 Hadoop MapReduce 中的侧连接
摘要:在排序和reducer 阶段,reduce 侧连接过程会产生巨大的网络I/O 流量,在这个阶段,相同键的值被聚集在一起. 本文分享自华为云社区<MapReduce 示例:减少 Hadoop ...
MapReduce中的partitioner
1.日志源文件: 1363157985066 13726230503 00-FD-07-A4-72-B8:CMCC 120.196.100.82 i02.c.aliimg.com 24 27 2481 ...
Hadoop MapReduce中压缩技术的使用
Compression and Input Splits 当我们使用压缩数据作为MapReduce的输入时,需要确认数据的压缩格式是否支持切片? 假设HDFS中有一个未经压缩的大小为1GB的文 ...
Hadoop : MapReduce中的Shuffle和Sort分析
地址 MapReduce 是现今一个非常流行的分布式计算框架,它被设计用于并行计算海量数据.第一个提出该技术框架的是Google 公司,而Google 的灵感则来自于函数式编程语言,如LISP,Sch ...
Hadoop Mapreduce中shuffle 详解
MapReduce 里面的shuffle:描述者数据从map task 输出到reduce task 输入的这段过程 Shuffle 过程: 首先,map 输出的<key,value > ...
Hadoop Mapreduce 中的FileInputFormat类的文件切分算法和host选择算法
文件切分算法文件切分算法主要用于确定InputSplit的个数以及每个InputSplit对应的数据段. FileInputFormat以文件为单位切分成InputSplit.对于每个文件,由以下三 ...
Hadoop Mapreduce中wordcount 过程解析
将文件split 文件1: 分割结果: hello world ...
下一代Apache Hadoop MapReduce框架的架构
背景随着集群规模和负载增加,MapReduce JobTracker在内存消耗,线程模型和扩展性/可靠性/性能方面暴露出了缺点,为此需要对它进行大整修. 需求当我们对Hadoop MapReduc ...
Hadoop学习笔记—11.MapReduce中的排序和分组
一.写在之前的 1.1 回顾Map阶段四大步骤首先,我们回顾一下在MapReduce中,排序和分组在哪里被执行: 从上图中可以清楚地看出,在Step1.4也就是第四步中,需要对不同分区中的数据进行排 ...

随机推荐

服务器可用的Socket
"; IPAddress ServerIp = IPAddress.Parse("112.124.46.251"); IPEndPoint iep = new IPEnd ...
【OI新闻】2016.10.09
号外: [头条]今天OI神犇光勋和原子城po ke,Happy Birthday!
[luogu2620]虫洞
https://www.zybuluo.com/ysner/note/1284536 题面给一个一维坐标系,出发点为\(0\),目标点为\(w\). 每\(1\)秒可以往后移不超过\(s\)个单位距 ...
openstack 配置dnsmasq 域名解析
ubuntu 16.04 Eclipse 图标显示为？(已解决)
这个问题挺好解决: sudo gedit /usr/share/applications/eclipse.desktop在这个文件中将Icon=/home/soyo/eclipse/icon.xpm, ...
Spark GraphX 聚合操作
package Spark_GraphX import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.graph ...
SQL Server 方言类型映射问题
关于SQL Server的类型映射问题,例如,nvarchar无法进行hibernate类型映射,需要通过convert进行类型转换方可进行获取
给独立搭建的博客启用https的过程
申请SSL证书我自己独立搭建的博客部署在阿里云服务器上,因此我就先搜索阿里云启用https的方法,网上有比较详细的讲解,在此提供一个参考网址: https://blog.csdn.net/csluc ...
基于ASP.Net Core开发一套通用后台框架记录-(数据库设计(权限模块))
写在前面本系列博客是本人在学习的过程中搭建学习的记录,如果对你有所帮助那再好不过.如果您有发现错误,请告知我,我会第一时间修改. 前期我不会公开源码,我想是一点点敲代码,不然复制.粘贴那就没意思了. ...
[COCI2006-2007 Contest#3] BICIKLI
不难的一道题,就是码的时候出了点问题,看了其他巨佬的题解才发现问题所在... 题目大意: 给定一个有向图,n个点,m条边.请问,1号点到2号点有多少条路径?如果有无限多条,输出inf,如果有限,输出答 ...

Hadoop Mapreduce 中的Partitioner

Hadoop Mapreduce 中的Partitioner的更多相关文章

随机推荐

热门专题