hadoop的自定义分组实现（Partition机制）

hadoop开发中我们会遇到类似这样的问题，比如如何将不同省份的手机号分别输出到不同的文件中，本片文章将对hadoop内置的Partition类进行重写以解决这个问题。

　　MapReduce的使用者通常会指定Reduce任务和Reduce任务输出文件的数量（R）。用户在中间key上使用分区函数来对数据进行分区，之后在输入到后续任务执行进程。Hadoop中自带了一个默认的分区类HashPartitioner，它继承了Partitioner类，提供了一个getPartition的方法，它的定义如下所示：

有些人死活不明白 key.hashCode() & Integer.MAX_VALUE) % numReduceTasks; 这段代码到底是怎么运算的，不要紧，我们main方法运行一下不久完了吗。

如果你想了解大数据的学习路线，想学习大数据知识以及需要免费的学习资料可以加群：784789432.欢迎你的加入。每天下午三点开直播分享基础知识，晚上20:00都会开直播给大家分享大数据项目实战。

public class Txt {
/*
* 将key均匀分布在ReduceTasks上，举例如果Key为Text的话，Text的hashcode方法跟String的基本一致，
* 都是采用的Horner公式计算，得到一个int，string太大的话这个int值可能会溢出变成负数，
* 所以与上Integer.MAX_VALUE（即0111111111111111），然后再对reduce个数取余，这样就可以让key均匀分布在reduce上。
*/
public static void main(String[] args) {
String key = "a,b,c,d,e,f,sdf,hth,iu,44,efwfqegergegew,h,ww,b,mm,lwefwefwfwefwefkj";
String[] fields = key.split(",");
int numReduceTasks = 4 ;
for (int i = 0; i < 16; i++) {
int j = ( fields[i].hashCode() & Integer.MAX_VALUE) % numReduceTasks;
System.out.println("与结果："+(fields[i].hashCode() & Integer.MAX_VALUE)+" --> key值： "+fields[i]+" 所在区间数 :"+j);
}
}
}

结果：

从结果我们简单明了的看出，通过这个算法的key具体是分布到那个区间，有几个区间，就是靠你的 reducetasks值决定的，如上图代码我们写死reducetasks数量为4，也就是 4个reduce , 那么输出结果为 0 ， 1， 2， 3 个数值，既为 4个区间。各个key值也较为均匀的分布再来 0，1，2，3 这四个区间之间的任意一个。

1，自定义 partitioner , 这是一坨数据，我们将根据相同省份的手机号放到不同文件中，省份根据手机号前三位判断。

2, 继承重写Partitioner中的getPartition()方法，根据key不同值返回不同 int 值，共4组。

public class AreaPartitioner<KEY, VALUE> extends Partitioner<KEY, VALUE>{
private static HashMap<String,Integer> map = new HashMap<>();
static{
map.put("135", 0);
map.put("136", 1);
map.put("137", 2);
map.put("150", 3); //其余情况既返回4
}
//map数据分组机制 hash(key)%1 == 0 ,既只有一组，所有手机号都放到一个分组里面
//现在可返回 0 1 2 3 ，既总共4组
//main方法中控制 reduce 任务数
@Override
public int getPartition(KEY key, VALUE value, int numPartitions) {
//从key中拿到手机号，不同的省份返回不同的组号
int a = map.get(key.toString().substring(0, 3))==null?4:map.get(key.toString().substring(0, 3));
return a;
}
}

3, 在main方法中定义reduce的任务数量，改数量大于等于你的分组数 4 。

public static void main(String[] args) throws Exception {
Configuration conf = new Configuration();
Job job = Job.getInstance(conf);
job.setJarByClass(FlowSumArea.class);
job.setMapperClass(FlowSumAreaMapper.class);
job.setReducerClass(FlowSumAreaReducer.class);
//设置我们自定义的分组逻辑定义
job.setPartitionerClass(AreaPartitioner.class);
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(FlowBean.class);
//设置reduce的任务并发数，应该跟分组的数量保持一致
job.setNumReduceTasks(4);
FileInputFormat.setInputPaths(job, new Path(args[0]));
FileOutputFormat.setOutputPath(job, new Path(args[1]));
System.exit(job.waitForCompletion(true)?0:1);

}

4 ，重新打jar包，在虚拟机上运行下，如果看到结果产生了多个文件，既为成功。

5，这里的流程原理就是 haoop中 mapreduce中间过程，叫做shuffle , 下图是我总结的流程图，可以参考看下如果写的不对请指出，谢谢。

hadoop的自定义分组实现（Partition机制）的更多相关文章

Hadoop mapreduce自定义分组RawComparator
本文发表于本人博客. 今天接着上次[Hadoop mapreduce自定义排序WritableComparable]文章写,按照顺序那么这次应该是讲解自定义分组如何实现,关于操作顺序在这里不多说了,需 ...
【Hadoop】Hadoop MR 自定义分组 Partition机制
1.概念 2.Hadoop默认分组机制--所有的Key分到一个组,一个Reduce任务处理 3.代码示例 FlowBean package com.ares.hadoop.mr.flowgroup; ...
一脸懵逼学习Hadoop中的MapReduce程序中自定义分组的实现
1:首先搞好实体类对象: write 是把每个对象序列化到输出流,readFields是把输入流字节反序列化,实现WritableComparable,Java值对象的比较:一般需要重写toStrin ...
2 weekend110的hadoop的自定义排序实现 + mr程序中自定义分组的实现
我想得到按流量来排序,而且还是倒序,怎么达到实现呢? 达到下面这种效果, 默认是根据key来排, 我想根据value里的某个排, 解决思路:将value里的某个,放到key里去,然后来排下面,开始w ...
MapReduce实例2（自定义compare、partition）& shuffle机制
MapReduce实例2(自定义compare.partition)& shuffle机制实例:统计流量有一份流量数据,结构是:时间戳.手机号.....上行流量.下行流量,需求是统计每个用 ...
Hadoop自定义分组Group
matadata: hadoop a spark a hive a hbase a tachyon a storm a redis a 自定义分组 import org.apache.hadoop.c ...
关于MapReduce中自定义分组类（三）
Job类 /** * Define the comparator that controls which keys are grouped together * for a single ...
hadoop的自定义数据类型和与关系型数据库交互
最近有一个需求就是在建模的时候,有少部分数据是postgres的,只能读取postgres里面的数据到hadoop里面进行建模测试,而不能导出数据到hdfs上去. 读取postgres里面的数据库有两 ...
3 weekend110的hadoop中的RPC框架实现机制 + hadoop中的RPC应用实例demo
hadoop中的RPC框架实现机制 RPC是Remotr Process Call, 进程间的远程过程调用,不是在一个jvm里. 即,Controller拿不到Service的实例对象. hadoop ...

随机推荐

C++ 无名对象
http://blog.sina.com.cn/s/blog_5f0e13360100bxlj.html 可以直接调用构造函数产生无名对象. 例如,下面的代码在函数fn()中,创建了一个无名对象: c ...
【Leetcode】【Medium】Search for a Range
Given a sorted array of integers, find the starting and ending position of a given target value. You ...
db2巡检小脚本
写了下db2巡检的一个小脚本,只能做常规检查,减少日常工作量,脚本内容如下: #!/bash/bin echo "物理CPU个数为:"cat /proc/cpuinfo| grep ...
February 6 2017 Week 6 Monday
There are no shortcuts to any place worth going. 任何值得去的地方,都没有捷径. Several years ago, I climbed the Hu ...
Vue、PHP、Bootstrap联手打造简单数据管理表格
这是一个用Vue.Bootstrap和PHP一起写的小实例,回顾总结了一下之前学习的知识,顺带添加点学习乐趣. 先上效果图: 用到的知识有:Vue数据绑定及组件.Bootstrap界面.PHP-AJA ...
ListView实现下拉刷新（一）建立头布局
一.效果演示 ListView实现下拉刷新,是很常见的功能.下面是一个模拟的效果,如下图: 效果说明:当往下拉ListView的时候 ...
[原创] SiteServer 3.5 批量导入文章的SQL处理脚本
2005时做过一个小网站,当时是用ASP+Access做的,功能很简单,但里面的文章不少现在就像把它转移到SS上来,重点就是如何导入文章本来SS本身提供了批量导入功能,但对于在WEB上一次性导入一 ...
2018 Multi-University Training Contest 4 Problem B. Harvest of Apples 【莫队+排列组合+逆元预处理技巧】
任意门:http://acm.hdu.edu.cn/showproblem.php?pid=6333 Problem B. Harvest of Apples Time Limit: 4000/200 ...
Server.xml解析
来源本文整理自 <Tomcat内核设计剖析>.<Tomcat结构解析> 加上自己的理解.源码来自 Tomcat8.5 版本 <Server port="800 ...
C语言中内存分配
C语言中内存分配在任何程序设计环境及语言中,内存管理都十分重要.在目前的计算机系统或嵌入式系统中,内存资源仍然是有限的.因此在程序设计中,有效地管理内存资源是程序员首先考虑的问题. 第1节主要 ...

hadoop的自定义分组实现 （Partition机制）

hadoop的自定义分组实现 （Partition机制）的更多相关文章

随机推荐

热门专题

hadoop的自定义分组实现（Partition机制）

hadoop的自定义分组实现（Partition机制）的更多相关文章