Hadoop值Partition分区

分区操作

为什么要分区？

要求将统计结果按照条件输出到不同文件中（分区）。比如：将统计结果按

照手机归属地不同省份输出到不同文件中（分区）

默认 partition 分区

/**

	源码中：numReduceTasks如果等于1 不会走getPartition方法

	numReduceTasks：默认是1

*/

public class HashPartitioner<K, V> extends Partitioner<K, V> {

	public int getPartition(K key, V value, int numReduceTasks) {

		return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks;

	}

}

默认分区是根据 key 的 hashCode 对 reduceTasks 个数取模得到的。

用户没法控制哪个key 存储到哪个分区

自定义Partition

（1）自定义类继承 Partitioner，重写 getPartition()方法

/**

	该方法返回不同的partition的值，从而就控制了分区个数、前提是numReduceTasks不等于1

	KV:是Map的输出

*/

public class ProvincePartitioner extends Partitioner<Text, FlowBean> {

	@Override

	public int getPartition(Text key, FlowBean value, int numPartitions) {

		// 1 获取电话号码的前三位

		String preNum = key.toString().substring(0, 3);

		int partition = 4;

		// 2 判断是哪个省

		if ("136".equals(preNum)) {

			partition = 0;

		}else if ("137".equals(preNum)) {

			partition = 1;

		}else if ("138".equals(preNum)) {

			partition = 2;

		}else if ("139".equals(preNum)) {

			partition = 3;

		}

		return partition;

	}

}

（2）在Runner类中设置partition

job.setPartitionerClass(CustomPartitioner.class);

（3）自定义 partition 后，要根据自定义 partitioner 的逻辑设置相应数量的 reduce task

job.setNumReduceTasks(5);

（4）注意：

如果 reduceTask 的数量 > getPartition 的结果数，则会多产生几个空的输出文件part-r-000xx；

如果 1 < reduceTask的数量 < getPartition 的结果数，则有一部分分区数据无处安放，会Exception；

如果 reduceTask 的数量 = 1，则不管 mapTask 端输出多少个分区文件，最终结果都交给这一个 reduceTask，

最终也就只会产生一个结果文件 part-r-00000；

例如：假设自定义分区数为 5，则

（1）job.setNumReduceTasks(1);会正常运行，只不过会产生一个输出文件

（2）job.setNumReduceTasks(2);会报错

（3）job.setNumReduceTasks(6);大于 5，程序会正常运行，会产生空文件

本博客仅为博主学习总结，感谢各大网络平台的资料。蟹蟹!!

Hadoop值Partition分区的更多相关文章

Hadoop(17)-MapReduce框架原理-MapReduce流程,Shuffle机制,Partition分区
MapReduce工作流程 1.准备待处理文件 2.job提交前生成一个处理规划 3.将切片信息job.split,配置信息job.xml和我们自己写的jar包交给yarn 4.yarn根据切片规划计 ...
9.2.3 hadoop reduce端连接-分区分组聚合
1.1.1 reduce端连接-分区分组聚合 reduce端连接则是利用了reduce的分区功能将stationid相同的分到同一个分区,在利用reduce的分组聚合功能,将同一个st ...
MySQL partition分区I
http://blog.csdn.net/binger819623/article/details/5280267 一. 分区的概念二. 为什么使用分区?(优点)三. ...
MYSQL之水平分区----MySQL partition分区I（5.1）
一. 分区的概念二. 为什么使用分区?(优点) 三. 分区类型四. 子分区五. 对分区进行修改(增加.删除.分解.合并) 六 ...
mysql Partition(分区)初探
mysql Partition(分区)初探表数据量大的时候一般都考虑水平拆分,即所谓的sharding.不过mysql本身具有分区功能,可以实现一定程度的水平切分. mysql是具有MERG ...
kafka之partition分区及副本replica升级
修改kafka的partition分区 bin/kafka-topics.sh --zookeeper datacollect-2:2181 --alter --partitions 3 --topi ...
mysql的partition分区
前言:当一个表里面存储的数据特别多的时候,比如单个.myd数据都已经达到10G了的话,必然导致读取的效率很低,这个时候我们可以采用把数据分到几张表里面来解决问题.方式一:通过业务逻辑根据数据的大小通过 ...
oracle partition 分区
--范围分区create table person( id int, name varchar2(20), birth date, sex char(2))partition by range (bi ...
Hadoop mapreduce自定义分区HashPartitioner
本文发表于本人博客. 在上一篇文章我写了个简单的WordCount程序,也大致了解了下关于mapreduce运行原来,其中说到还可以自定义分区.排序.分组这些,那今天我就接上一次的代码继续完善实现自定 ...

随机推荐

在Delphi中关于UDP协议的实现
原文地址:在Delphi中关于UDP协议的实现作者:菜心首先我把UDP无连接协议的套接字调用时序图表示出来在我把在Delphi中使用UDP协议实现数据通讯收发的实现方法总结如下: 例子描述:下 ...
centos安装最新版MySQL 8.0教程
这篇教程是通过yum方式安装的安装依赖 yum install libaio wget -y 检查MYSQL是否已安装 yum list installed | grep mysql 如果有先卸载 ...
【Aizu - ALDS1_1_C】Prime Numbers（素数筛法）
Prime Numbers Descriptions: A prime number is a natural number which has exactly two distinct natur ...
C# 设计模式，工厂方法
C#工厂方法 using System; using System.Collections.Generic; using System.Linq; using System.Text; using S ...
PWN菜鸡入门之栈溢出（1）
栈溢出一.基本概念: 函数调用栈情况见链接基本准备: bss段可执行检测: gef➤ b main Breakpoint at . gef➤ r Starting program: /mnt/ ...
Hive 学习之路（五）—— Hive 分区表和分桶表
一.分区表 1.1 概念 Hive中的表对应为HDFS上的指定目录,在查询数据时候,默认会对全表进行扫描,这样时间和性能的消耗都非常大. 分区为HDFS上表目录的子目录,数据按照分区存储在子目录中.如 ...
Spring Bean 生命周期之“我从哪里来？” 懂得这个很重要
Spring bean 的生命周期很容易理解.实例化 bean 时,可能需要执行一些初始化以使其进入可用 (Ready for Use)状态.类似地,当不再需要 bean 并将其从容器中移除时,可能需 ...
搭建本地pip源
搭建本地的pip源开发环境部署机器的时候, 每次从网上下载pip包会很慢, 将需要的包和相关依赖下载到本地, 搭建一个本地源服务器. 基本都是安装多个包, 推荐使用文件的方式, 文件内容格式, 可以 ...
json数据转为对象，一般在前台把数据传回后端中使用转https://www.cnblogs.com/zxtceq/p/6610214.html
public static JArray GetData2JArray(string url, string key) { string jsonData = HttpHelper.HttpGet(u ...
leadcode的Hot100系列--78. 子集--位运算
看一个数组的子集有多少,其实就是排列组合, 比如:[0,1] 对应的子集有:[] [0] [1] [1,1] 这四种. 一般对应有两种方法:位运算和回溯. 这里先使用位运算来做. 位运算一个长度 ...

Hadoop值Partition分区

分区操作

为什么要分区？

默认 partition 分区

自定义Partition

Hadoop值Partition分区的更多相关文章

随机推荐

热门专题