Hadoop mapreduce自定义分区HashPartitioner

本文发表于本人博客。

在上一篇文章我写了个简单的WordCount程序，也大致了解了下关于mapreduce运行原来，其中说到还可以自定义分区、排序、分组这些，那今天我就接上一次的代码继续完善实现自定义分区。

首先我们明确一下关于中这个分区到底是怎么样，有什么用处？回答这个问题先看看上次代码执行的结果，我们知道结果中有个文件(part-r-00000),这个文件就是所有的词的数量记录，这个时候有没什么想法比如如果我想把一些包含特殊的词放置单独的一个文件，其他我不关心的放置在另一个文件这样我就好查看方便多了，又比如如果是统计关于人的某些爱好那我是不是可以把童年的放置在一个文件，成年的放置在一个文件等等这样输出结果。是，这个倒是非常有用哦输出的结果就是最直接的了，那现在我们就来分析一下应该怎么搞怎么实现：

我们清楚，这个输出文件是由reduce端输出的，reduce端的数据是由map函数处理完通过shufflecopy至reduce端的，然而map端的输出数量会对于reduce输入的数量，那么map端会负责划分数据，在shuffle过程中有个步骤就是分区，我们先来看看上次代码中使用的分区类HashPartitioner，看代码：

public class HashPartitioner<K, V> extends Partitioner<K, V> {

  /** Use {@link Object#hashCode()} to partition. */

  public int getPartition(K key, V value,

                          int numReduceTasks) {

    return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks;

  }

}

这里出现了个numReduceTasks变量，这个是由哪里过来的呢，那就得看谁调用了这个方法了，看：MapTask.java就可以看到其write方法调用了，然而这个方法的partitions参数是由：

jobContext.getNumReduceTasks();

觉得，那我们继续找下去这个变量是由mapred.reduce.tasks配置节点决定的默认是1。那现在我们虽然不知道(key.hashCode() & Integer.MAX_VALUE)值是多少但是%1我们可以知道结果就是0；现在我来继承这个类(也可继承其父类Partitioner<K, V>)重写其getPartition方法来实现分区，看下面自定义分区MyPartition代码：

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.lib.partition.HashPartitioner;

/**

 * 自定义分区类

 * @author Liang

 *

 */

public class MyPartition extends HashPartitioner<Text, LongWritable> {

    @Override

    public int getPartition(Text key, LongWritable value, int numReduceTasks) {

        return key.toString().contains("luoliang") ? 0 : 1;

    }

}

上面重写getPartition函数，其中如果键中有字符串"luoliang"的键值就返回0否则其它返回1。执行后在(hdfs://hadoop-master:9000/mapreduce/output/)会有2个文件，一个是part-r-00000,一个是part-r-00001。part-r-00000对应的是条件key.toString().contains("luoliang")为真的！

注意先要在mian函数中加入：

job.setJarByClass(Test.class);

还需要更改：

job.setPartitionerClass(MyPartition.class);

job.setNumReduceTasks(2);

再把程序打包成jar.jar文件上传至服务器使用命令运行：

hadoop jar jar.jar

如果本地调试或者运行会报错必须打包至服务器运行，结果会生成有那下面2个文件如下：

part-r-00000

part-r-00001

这次先到这里。坚持记录点点滴滴！

Hadoop mapreduce自定义分区HashPartitioner的更多相关文章

Hadoop mapreduce自定义分组RawComparator
本文发表于本人博客. 今天接着上次[Hadoop mapreduce自定义排序WritableComparable]文章写,按照顺序那么这次应该是讲解自定义分组如何实现,关于操作顺序在这里不多说了,需 ...
Hadoop学习之路(6)MapReduce自定义分区实现
MapReduce自带的分区器是HashPartitioner 原理:先对map输出的key求hash值,再模上reduce task个数,根据结果,决定此输出kv对,被匹配的reduce任务取走. ...
【Hadoop】MapReduce自定义分区Partition输出各运营商的手机号码
MapReduce和自定义Partition MobileDriver主类 package Partition; import org.apache.hadoop.io.NullWritable; i ...
[Hadoop] - Mapreduce自定义Counter
在Hadoop的MR程序开发中,经常需要统计一些map/reduce的运行状态信息,这个时候我们可以通过自定义Counter来实现,这个实现的方式是不是通过配置信息完成的,而是通过代码运行时检查完成的 ...
Hadoop mapreduce自定义排序WritableComparable
本文发表于本人博客. 今天继续写练习题,上次对分区稍微理解了一下,那根据那个步骤分区.排序.分组.规约来的话,今天应该是要写个排序有关的例子了,那好现在就开始! 说到排序我们可以查看下hadoop源码 ...
Hadoop MapReduce自定义数据类型
一自定义数据类型的实现 1.继承接口Writable,实现其方法write()和readFields(), 以便该数据能被序列化后完成网络传输或文件输入/输出: 2.如果该数据需要作为主键key使用 ...
在hadoop作业中自定义分区和归约
当遇到有特殊的业务需求时,需要对hadoop的作业进行分区处理那么我们可以通过自定义的分区类来实现还是通过单词计数的例子,JMapper和JReducer的代码不变,只是在JSubmit中改变了设 ...
[MapReduce_8] MapReduce 中的自定义分区实现
0. 说明设置分区数量 && 编写自定义分区代码 1. 设置分区数量分区(Partition) 分区决定了指定的 Key 进入到哪个 Reduce 中分区目的:把相同的 Key ...
mapreduce自定义排序(map端1.4步)
3 3 3 2 3 1 2 2 2 1 1 1 -----------------期望输出 1 1 2 1 2 2 3 1 3 2 3 3 将以上数据进行排序,排序规则是:按照第一列升序排序,如果第一 ...

随机推荐

Python 爬虫知识点 - XPath
http://cuiqingcai.com/2621.html 一.基础介绍 <bookstore> <book> <title>Harry Potter</ ...
解决Xcode "The selected destination does not support the architecture " 错误错误
XCODE编译运行项目后,发现工程编译后无法运行,出现:"The selected destination does not support the architecture for whi ...
《C++ Primer Plus》第11章使用类学习笔记
本章介绍了定义和使用类的许多重要方面.一般来说,访问私有类成员的唯一方法是使用类方法.C++使用友元函数来避开这种限制.要让函数称为友元,需要在类声明中声明该函数,并在声明前加上关键字friend.C ...
Android 手机随音乐振动
想到做一个Android软件可以在播放音乐的同时手机在音量或者音调高的时候振动一下. 等我熟练Android的时候试试...
Runtime 应用（一）拦截系统自带的方法交换实现
动态的交换方法能够给项目中大量已经使用的方法进行拦截增加操作实践:利用运行时交换系统的ImageNamed:方法应用背景当系统需要适配ios7和ios8时可能会有显示不同图片的需求,但在老项目 ...
Size Balanced Tree
Size Balanced Tree(SBT)是目前速度最快的平衡二叉搜索树,且能够进行多种搜索操作,区间操作:和AVL.红黑树.伸展树.Treap类似,SBT也是通过对节点的旋转来维持树的平衡,而相 ...
HTTP/2探索第一篇——概念
版权声明:本文由张浩然原创文章,转载请注明出处: 文章原文链接:https://www.qcloud.com/community/article/87 来源:腾云阁 https://www.qclou ...
为非ajax请求绑定回调函数的方法
我们都知道jQuery为ajax请求封装了success和error两个回调方法,其实jQuery也实现了为非ajax请求的普通方法也设计了绑定回调函数的方法. 当一个方法需要等待另一个耗时很长的方法 ...
2.实现官网环境, 搭建HTTP服务器
1.建立 HTTP 服务器 Node.js 是为网络而诞生的平台,但又与 ASP.PHP 有很大的不同,究竟不同在哪里呢?如果你有 PHP 开发经验,会知道在成功运行 PHP 之前先要配置一个功能强大 ...
【BZOJ1458】士兵占领最小流
[BZOJ1458]士兵占领 Description 有一个M * N的棋盘,有的格子是障碍.现在你要选择一些格子来放置一些士兵,一个格子里最多可以放置一个士兵,障碍格里不能放置士兵.我们称这些士兵占 ...

Hadoop mapreduce自定义分区HashPartitioner

Hadoop mapreduce自定义分区HashPartitioner的更多相关文章

随机推荐

热门专题