MapReduce之自定义分区器Partitioner

问题引出
默认Partitioner分区
自定义Partitioner步骤
Partition分区案例实操
分区总结

问题引出

要求将统计结果按照条件输出到不同文件中（分区）。

比如：将统计结果按照手机归属地不同省份输出到不同文件中（分区）

默认Partitioner分区

public class HashPartitioner<K,V> extends Partitioner<K,V>{

	public int getPartition(K key,V value, int numReduceTasks){

		return (key.hashCode() & Integer.MAX VALUE) & numReduceTasks;

	}

}

默认分区是根据key的hashCode对ReduceTasks个数取模得到的。
用户没法控制哪个key存储到哪个分区。

自定义Partitioner步骤

自定义类继承Partitioner，重写getPartition()方法

public class CustomPartitioner extends Partitioner<Text，FlowBea>{

	@Override

	public int getPartition(Text key，FlowBean value，int numPartitions){

		//控制分区代码逻辑

		……

		return partition；

	}

}

在Job驱动类中，设置自定义Partitioner

job.setPartitionerClass(CustomPartitioner.class)

自定义Partition后，要根据自定义Partitioner的逻辑设置相应数量的ReduceTask

 job.setNumReduceTask(5);//假设需要分5个区

Partition分区案例实操

将统计结果按照手机归属地不同省份输出到不同文件中（分区）

输入数据：

期望输出数据：

手机号136、137、138、139开头都分别放到一个独立的4个文件中，其他开头的放到一个文件中。所以总共分为5个文件，也就是五个区。

相比于之前的自定义flowbean，这次自定义分区，只需要多编写一个分区器，以及在job驱动类中设置分区器，mapper和reducer类不改变

MyPartitioner.java

/*

 * KEY, VALUE: Mapper输出的Key-value类型

 */

public class MyPartitioner extends Partitioner<Text, FlowBean>{

	// 计算分区  numPartitions为总的分区数，reduceTask的数量

	// 分区号必须为int型的值，且必须符合 0<= partitionNum < numPartitions

	@Override

	public int getPartition(Text key, FlowBean value, int numPartitions) {

		String suffix = key.toString().substring(0, 3);//前开后闭，取手机号前三位数

		int partitionNum=0;//分区编号

		switch (suffix) {

		case "136":

			partitionNum=numPartitions-1;//由于分区编号不能大于分区总数，所以用这种方法比较好

			break;

		case "137":

			partitionNum=numPartitions-2;

			break;

		case "138":

			partitionNum=numPartitions-3;

			break;

		case "139":

			partitionNum=numPartitions-4;

			break;

		default:

			break;

		}

		return partitionNum;

	}

}

FlowBeanDriver.java

public class FlowBeanDriver {

	public static void main(String[] args) throws Exception {

		Path inputPath=new Path("e:/mrinput/flowbean");

		Path outputPath=new Path("e:/mroutput/partitionflowbean");

		//作为整个Job的配置

		Configuration conf = new Configuration();

		//保证输出目录不存在

		FileSystem fs=FileSystem.get(conf);

		if (fs.exists(outputPath)) {

			fs.delete(outputPath, true);

		}

		// ①创建Job

		Job job = Job.getInstance(conf);

		// ②设置Job

		// 设置Job运行的Mapper，Reducer类型，Mapper,Reducer输出的key-value类型

		job.setMapperClass(FlowBeanMapper.class);

		job.setReducerClass(FlowBeanReducer.class);

		// Job需要根据Mapper和Reducer输出的Key-value类型准备序列化器，通过序列化器对输出的key-value进行序列化和反序列化

		// 如果Mapper和Reducer输出的Key-value类型一致，直接设置Job最终的输出类型

		job.setOutputKeyClass(Text.class);

		job.setOutputValueClass(FlowBean.class);

		// 设置输入目录和输出目录

		FileInputFormat.setInputPaths(job, inputPath);

		FileOutputFormat.setOutputPath(job, outputPath);

		// 设置ReduceTask的数量为5

		job.setNumReduceTasks(5);

		// 设置使用自定义的分区器

		job.setPartitionerClass(MyPartitioner.class);

		// ③运行Job

		job.waitForCompletion(true);

	}

}

FlowBeanMapper.java

/*

 * 1. 统计手机号(String)的上行(long,int)，下行(long,int)，总流量(long,int)

 *

 * 手机号为key,Bean{上行(long,int)，下行(long,int)，总流量(long,int)}为value

 *

 *

 *

 *

 */

public class FlowBeanMapper extends Mapper<LongWritable, Text, Text, FlowBean>{

	private Text out_key=new Text();

	private FlowBean out_value=new FlowBean();

	// (0,1	13736230513	192.196.100.1	www.atguigu.com	2481	24681	200)

	@Override

	protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, Text, FlowBean>.Context context)

			throws IOException, InterruptedException {

		String[] words = value.toString().split("\t");

		//封装手机号

		out_key.set(words[1]);

		// 封装上行

		out_value.setUpFlow(Long.parseLong(words[words.length-3]));

		// 封装下行

		out_value.setDownFlow(Long.parseLong(words[words.length-2]));

		context.write(out_key, out_value);

	}

}

FlowBeanReducer.java

public class FlowBeanReducer extends Reducer<Text, FlowBean, Text, FlowBean>{

	private FlowBean out_value=new FlowBean();

	@Override

	protected void reduce(Text key, Iterable<FlowBean> values, Reducer<Text, FlowBean, Text, FlowBean>.Context context)

			throws IOException, InterruptedException {

		long sumUpFlow=0;

		long sumDownFlow=0;

		for (FlowBean flowBean : values) {

			sumUpFlow+=flowBean.getUpFlow();

			sumDownFlow+=flowBean.getDownFlow();

		}

		out_value.setUpFlow(sumUpFlow);

		out_value.setDownFlow(sumDownFlow);

		out_value.setSumFlow(sumDownFlow+sumUpFlow);

		context.write(key, out_value);

	}

}

FlowBean.java

public class FlowBean implements Writable{

	private long upFlow;

	private long downFlow;

	private long sumFlow;

	public FlowBean() {

	}

	public long getUpFlow() {

		return upFlow;

	}

	public void setUpFlow(long upFlow) {

		this.upFlow = upFlow;

	}

	public long getDownFlow() {

		return downFlow;

	}

	public void setDownFlow(long downFlow) {

		this.downFlow = downFlow;

	}

	public long getSumFlow() {

		return sumFlow;

	}

	public void setSumFlow(long sumFlow) {

		this.sumFlow = sumFlow;

	}

	// 序列化   在写出属性时，如果为引用数据类型，属性不能为null

	@Override

	public void write(DataOutput out) throws IOException {

		out.writeLong(upFlow);

		out.writeLong(downFlow);

		out.writeLong(sumFlow);

	}

	//反序列化   序列化和反序列化的顺序要一致

	@Override

	public void readFields(DataInput in) throws IOException {

		upFlow=in.readLong();

		downFlow=in.readLong();

		sumFlow=in.readLong();

	}

	@Override

	public String toString() {

		return  upFlow + "\t" + downFlow + "\t" + sumFlow;

	}

}

输出结果：

总共五个文件

一号区：

二号区：

三号区：

四号区：

其他号码为第五号区：

分区总结

如果ReduceTask的数量 > getPartition的结果数，则会多产生几个空的输出文件part-r-000xx
如果Reduceask的数量 < getPartition的结果数，则有一部分分区数据无处安放，会Exception
如果ReduceTask的数量 = 1，则不管MapTask端输出多少个分区文件，最终结果都交给这一个ReduceTask，最终也就只会产生一个结果文件partr-00000

以刚才的案例分析：

例如：假设自定义分区数为5，则

job.setlNlurmReduce Task(1)；会正常运行，只不过会产生一个输出文件
job.setlNlunReduce Task(2)，会报错
job.setNumReduceTasks(6)；大于5，程序会正常运行，会产生空文件

MapReduce之自定义分区器Partitioner的更多相关文章

spark自定义分区器实现
在spark中,框架默认使用的事hashPartitioner分区器进行对rdd分区,但是实际生产中,往往使用spark自带的分区器会产生数据倾斜等原因,这个时候就需要我们自定义分区,按照我们指定的字 ...
kafka 自定义分区器
package cn.xiaojf.kafka.producer; import org.apache.kafka.clients.producer.Partitioner; import org.a ...
关于MapReduce中自定义分区类（四）
MapTask类在MapTask类中找到run函数 if(useNewApi){ runNewMapper(job, splitMetaInfo, umbilical, reporter ...
Parallel中分区器Partitioner的简单使用
Partitioner.Create(1,10,4).GetDynamicPartitions() 为长度为10的序列创建分区,每个分区至多4个元素,分区方法及结果:Partitioner.Creat ...
Spark源码分析之分区器的作用
最近因为手抖,在Spark中给自己挖了一个数据倾斜的坑.为了解决这个问题,顺便研究了下Spark分区器的原理,趁着周末加班总结一下~ 先说说数据倾斜数据倾斜是指Spark中的RDD在计算的时候,每个 ...
玩转Kafka的生产者——分区器与多线程
上篇文章学习kafka的基本安装和基础概念,本文主要是学习kafka的常用API.其中包括生产者和消费者, 多线程生产者,多线程消费者,自定义分区等,当然还包括一些避坑指南. 首发于个人网站:链接地址 ...
kafka producer partitions分区器(七)
消息在经过拦截器.序列化后,就需要确定它发往哪个分区,如果在ProducerRecord中指定了partition字段,那么就不再需要partitioner分区器进行分区了,如果没有指定,那么会根据k ...
RDD(六)——分区器
RDD的分区器 Spark目前支持Hash分区和Range分区,用户也可以自定义分区,Hash分区为当前的默认分区,Spark中分区器直接决定了RDD中分区的个数.RDD中每条数据经过Shuffle过 ...
Spark分区器浅析
分区器作用:决定该数据在哪个分区概览: 仅仅只有pairRDD才可能持有分区器,普通RDD的分区器为None 在分区器为None时RDD分区一般继承至父RDD分区初始RDD分区数: 由集合创建,R ...

随机推荐

java 中的自动装箱和拆箱操作
在前面的文章中提到,Java为每种基本数据类型都提供了对应的包装器类型,至于为什么会为每种基本数据类型提供包装器类型在此不进行阐述,有兴趣的朋友可以查阅相关资料.在Java SE5之前,如果要生成一个 ...
服务扫描-dmitry、nmap、amap和服务识别
dmitry使用-pb参数可以进行常用端口的banner抓取. 抓取效果: 强大的nmap也可以进行banner抓取,但是需要使用nmap内置的banner.nse脚本: kali中还有一个工具叫am ...
DNS篇（详解DNS）
*文章来源:https://blog.egsec.cn/archives/601 *本文将主要说明:本文主要叙述什么是DNS.域名的层级.DNS 解析过程.DNS的缓存时间.DNS 的记录类型.DNS ...
Angular 从入坑到挖坑 - 模块简介
一.Overview Angular 入坑记录的笔记第七篇,介绍 Angular 中的模块的相关概念,了解相关的使用场景,以及知晓如何通过特性模块来组织我们的 Angular 应用对应官方文档地址: ...
js事件入门（5）
5.窗口事件 5.1.onload事件元素加载完成时触发,常用的就是window.onload window.onload = function(){ //等页面加载完成时执行这里的代码 } 5.1 ...
spring quartz 每30分钟执行一次cronExpression表达式怎么写
<cron-expression>0 0/30 * * * ?</cron-expression>:每隔30分钟 <cron-expression>0 0/15 ...
IOC和DI的概念，以及Spring框架的介绍
对于Java开发者来说,Spring肯定是一个避不开的技术.所以准备系统的学下Spring框架. 我给自己设计的学习路线是这样的:首先阅读下Spring的官方文档(注意Spring官网上有很多项目,S ...
放弃for循环吧
前言 for(var i=0;i<array.length;i++){}这个可以是初学者必学的知识,也是JS中必不可少的功能,但如果对性能要求较高的小伙伴有了解过就会发现,for循环性能不高且代 ...
java的运行
1.打成war包 war需要部署到tomcat中运行. 2.jar包 A 可执行jar包 java -jar some.jar B 普通jar包 java -cp "dir/*" ...
与跨域相关的 jsonp 劫持与 CORS 配置错误
参考文章: CORS(跨域资源共享)错误配置漏洞的高级利用 JSONP劫持CORS跨源资源共享漏洞 JSONP绕过CSRF防护token 读取型CSRF-需要交互的内容劫持跨域资源共享 CORS 详 ...