Hadoop mapreduce自定义分区HashPartitioner

本文发表于本人博客。

在上一篇文章我写了个简单的WordCount程序，也大致了解了下关于mapreduce运行原来，其中说到还可以自定义分区、排序、分组这些，那今天我就接上一次的代码继续完善实现自定义分区。

首先我们明确一下关于中这个分区到底是怎么样，有什么用处？回答这个问题先看看上次代码执行的结果，我们知道结果中有个文件(part-r-00000),这个文件就是所有的词的数量记录，这个时候有没什么想法比如如果我想把一些包含特殊的词放置单独的一个文件，其他我不关心的放置在另一个文件这样我就好查看方便多了，又比如如果是统计关于人的某些爱好那我是不是可以把童年的放置在一个文件，成年的放置在一个文件等等这样输出结果。是，这个倒是非常有用哦输出的结果就是最直接的了，那现在我们就来分析一下应该怎么搞怎么实现：

我们清楚，这个输出文件是由reduce端输出的，reduce端的数据是由map函数处理完通过shufflecopy至reduce端的，然而map端的输出数量会对于reduce输入的数量，那么map端会负责划分数据，在shuffle过程中有个步骤就是分区，我们先来看看上次代码中使用的分区类HashPartitioner，看代码：

public class HashPartitioner<K, V> extends Partitioner<K, V> {

  /** Use {@link Object#hashCode()} to partition. */

  public int getPartition(K key, V value,

                          int numReduceTasks) {

    return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks;

  }

}

这里出现了个numReduceTasks变量，这个是由哪里过来的呢，那就得看谁调用了这个方法了，看：MapTask.java就可以看到其write方法调用了，然而这个方法的partitions参数是由：

jobContext.getNumReduceTasks();

觉得，那我们继续找下去这个变量是由mapred.reduce.tasks配置节点决定的默认是1。那现在我们虽然不知道(key.hashCode() & Integer.MAX_VALUE)值是多少但是%1我们可以知道结果就是0；现在我来继承这个类(也可继承其父类Partitioner<K, V>)重写其getPartition方法来实现分区，看下面自定义分区MyPartition代码：

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.lib.partition.HashPartitioner;

/**

 * 自定义分区类

 * @author Liang

 *

 */

public class MyPartition extends HashPartitioner<Text, LongWritable> {

    @Override

    public int getPartition(Text key, LongWritable value, int numReduceTasks) {

        return key.toString().contains("luoliang") ? 0 : 1;

    }

}

上面重写getPartition函数，其中如果键中有字符串"luoliang"的键值就返回0否则其它返回1。执行后在(hdfs://hadoop-master:9000/mapreduce/output/)会有2个文件，一个是part-r-00000,一个是part-r-00001。part-r-00000对应的是条件key.toString().contains("luoliang")为真的！

注意先要在mian函数中加入：

job.setJarByClass(Test.class);

还需要更改：

job.setPartitionerClass(MyPartition.class);

job.setNumReduceTasks(2);

再把程序打包成jar.jar文件上传至服务器使用命令运行：

hadoop jar jar.jar

如果本地调试或者运行会报错必须打包至服务器运行，结果会生成有那下面2个文件如下：

part-r-00000

part-r-00001

这次先到这里。坚持记录点点滴滴！

Hadoop mapreduce自定义分区HashPartitioner的更多相关文章

Hadoop mapreduce自定义分组RawComparator
本文发表于本人博客. 今天接着上次[Hadoop mapreduce自定义排序WritableComparable]文章写,按照顺序那么这次应该是讲解自定义分组如何实现,关于操作顺序在这里不多说了,需 ...
Hadoop学习之路(6)MapReduce自定义分区实现
MapReduce自带的分区器是HashPartitioner 原理:先对map输出的key求hash值,再模上reduce task个数,根据结果,决定此输出kv对,被匹配的reduce任务取走. ...
【Hadoop】MapReduce自定义分区Partition输出各运营商的手机号码
MapReduce和自定义Partition MobileDriver主类 package Partition; import org.apache.hadoop.io.NullWritable; i ...
[Hadoop] - Mapreduce自定义Counter
在Hadoop的MR程序开发中,经常需要统计一些map/reduce的运行状态信息,这个时候我们可以通过自定义Counter来实现,这个实现的方式是不是通过配置信息完成的,而是通过代码运行时检查完成的 ...
Hadoop mapreduce自定义排序WritableComparable
本文发表于本人博客. 今天继续写练习题,上次对分区稍微理解了一下,那根据那个步骤分区.排序.分组.规约来的话,今天应该是要写个排序有关的例子了,那好现在就开始! 说到排序我们可以查看下hadoop源码 ...
Hadoop MapReduce自定义数据类型
一自定义数据类型的实现 1.继承接口Writable,实现其方法write()和readFields(), 以便该数据能被序列化后完成网络传输或文件输入/输出: 2.如果该数据需要作为主键key使用 ...
在hadoop作业中自定义分区和归约
当遇到有特殊的业务需求时,需要对hadoop的作业进行分区处理那么我们可以通过自定义的分区类来实现还是通过单词计数的例子,JMapper和JReducer的代码不变,只是在JSubmit中改变了设 ...
[MapReduce_8] MapReduce 中的自定义分区实现
0. 说明设置分区数量 && 编写自定义分区代码 1. 设置分区数量分区(Partition) 分区决定了指定的 Key 进入到哪个 Reduce 中分区目的:把相同的 Key ...
mapreduce自定义排序(map端1.4步)
3 3 3 2 3 1 2 2 2 1 1 1 -----------------期望输出 1 1 2 1 2 2 3 1 3 2 3 3 将以上数据进行排序,排序规则是:按照第一列升序排序,如果第一 ...

随机推荐

hdu 4849 最短路西安邀请赛 Wow! Such City!
http://acm.hdu.edu.cn/showproblem.php?pid=4849 会有非常多奇怪的Wa的题.当初在西安就不知道为什么wa,昨晚做了,由于一些Sb错误也wa了非常久.这会儿怎 ...
php 网络爬虫，爬一下花瓣的图片
今天无聊看在知乎上看到有人写网络爬虫爬图片(￣▽ ￣) 传送门: 福利 - 不过百行代码的爬虫爬取美女图:https://zhuanlan.zhihu.com/p/24730075 福利 - 不过十行 ...
Google Inc.:Google APIs:23' 解决方案
在导入一个项目是,出现 Unable to resolve target 'Google Inc.:Google APIs:6'第一种解决方法: compileSdkVersion 23 改成 com ...
C#中的抽象类与重写
今天的我们学习了好多,最初上午学习了文件流的方法,老师告诉我们是选修,可能以后不怎么用吧,但是还是想学下,似乎用个小程序读写文件很快地节奏,所以有点小兴趣学习,明天我再看看啦!今天之后学习了多态,继承 ...
iOS应用国际化教程（2014版）
本文转载至 http://www.cocoachina.com/industry/20140526/8554.html 这篇教程将通过一款名为iLikeIt的应用带你了解最基础的国际化概念,并为你的应 ...
《C++ Primer Plus》第10章对象和类学习笔记
面向对象编程强调的是程序如何表示数据.使用 OOP 方法解决编程问题的第一步是根据它与程序之间的接口来描述数据,从而指定如何使用数据.然后,设计一个类来实现该接口.一般来说,私有数据成员存储信息,公有 ...
Spring学习笔记--注入Bean属性
这里通过一个MoonlightPoet类来演示了注入Bean属性property的效果. package com.moonlit.myspring; import java.util.List; im ...
Android TextView实现跑马灯
TextView实现跑马灯的效果:例子一: 这个例子可以解决给一个TextView实现跑马灯的效果,但是不能解决给所有的TextView实现跑马灯的效果. <TextView android:l ...
diff命令的参数详解和实例
diff命令参数: diff - 找出两个文件的不同点总览 diff [选项] 源文件目标文件描述在最简单的情况是, diff 比较两个文件的内容 (源文件和目标文件). 文件名可以是 - ...
让你变成ASP木马高手
.名称:如何制作图片ASP木马 (可显示图片) 建一个asp文件,内容为 找一个正常图片ating.j ...

Hadoop mapreduce自定义分区HashPartitioner

Hadoop mapreduce自定义分区HashPartitioner的更多相关文章

随机推荐

热门专题