mr的partition分区

1、Partitioner 组件通过让 Map 对 Key 进行分区，从而将不同分区的 Key 交由不同的 Reduce 处理。Partition属于map端

2、分区的总数与任务的reduce任务数相同

partitioner定义：
partitioner的作用是将mapper 输出的key/value拆分为分片（shard），每个reducer对应一个分片。
默认情况下，partitioner先计算key的散列值（hash值）。然后通过reducer个数执行取模运算：key.hashCode%(reducer个数)。这样能够随机地将整个key空间平均分发给每个reducer,同时也能确保不同mapper产生的相同key能被分发到同一个reducer。

以下图片截取自Hadoop权威指南（第三版）

目的：
        可以使用自定义Partitioner来达到reducer的负载均衡，    提高效率。
适用范围：
        需要非常注意的是：必须提前知道有多少个分区。比如自定义Partitioner会返回4个不同int值，而reducer number设置了小于4，那就会报错。所以我们可以通过运行分析任务来确定分区数。
        例如，有一堆包含时间戳的数据，但是不知道它能追朔到的时间范围，此时可以运行一个作业来计算出时间范围。
注意：
在自定义partitioner时一定要注意防止数据倾斜。

从以上源码我们可以看到Partitioner 抽象类由getPartition(KEY key, VALUE value, int numPartitions)方法组成，起三个参数分别为：（KEY key, VALUE value, int numPartitions）

一下大概对此方法做简要说明：

1）key、value分别指的是Mapper任务的输出

2）numReduceTasks指的是设置的Reducer任务数量，默认值是1，numReduceTasks指的是设置的Reducer任务数量，默认值是1

以下做一个简单的例子以供参考：

class ThePartitioner extends Partitioner<Text, Text> {
@Override
public int getPartition(Text key, Text value,
int numPartitions) {

Long l = Long.valueOf((key.hashCode() - Integer.MAX_VALUE) % numPartitions);
return Math.abs(Integer.parseInt(l.toString()));
}
}

————————————————
版权声明：本文为CSDN博主「hochoy」的原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/hochoy/article/details/79633712

mr的partition分区的更多相关文章

mysql Partition(分区)初探
mysql Partition(分区)初探表数据量大的时候一般都考虑水平拆分,即所谓的sharding.不过mysql本身具有分区功能,可以实现一定程度的水平切分. mysql是具有MERG ...
MySQL partition分区I
http://blog.csdn.net/binger819623/article/details/5280267 一. 分区的概念二. 为什么使用分区?(优点)三. ...
MYSQL之水平分区----MySQL partition分区I（5.1）
一. 分区的概念二. 为什么使用分区?(优点) 三. 分区类型四. 子分区五. 对分区进行修改(增加.删除.分解.合并) 六 ...
kafka之partition分区及副本replica升级
修改kafka的partition分区 bin/kafka-topics.sh --zookeeper datacollect-2:2181 --alter --partitions 3 --topi ...
mysql的partition分区
前言:当一个表里面存储的数据特别多的时候,比如单个.myd数据都已经达到10G了的话,必然导致读取的效率很低,这个时候我们可以采用把数据分到几张表里面来解决问题.方式一:通过业务逻辑根据数据的大小通过 ...
Hadoop(17)-MapReduce框架原理-MapReduce流程,Shuffle机制,Partition分区
MapReduce工作流程 1.准备待处理文件 2.job提交前生成一个处理规划 3.将切片信息job.split,配置信息job.xml和我们自己写的jar包交给yarn 4.yarn根据切片规划计 ...
Hadoop值Partition分区
分区操作为什么要分区? 要求将统计结果按照条件输出到不同文件中(分区).比如:将统计结果按照手机归属地不同省份输出到不同文件中(分区) 默认 partition 分区 /** 源码中:numRed ...
oracle partition 分区
--范围分区create table person( id int, name varchar2(20), birth date, sex char(2))partition by range (bi ...
MR案例：分区和排序
现有一学生成绩数据,格式如下:<学号,姓名,学院,成绩> //<id, name, institute, grade>. 需求描述:查询成绩大于等于60分的学生数据,按学院分 ...

随机推荐

数据后台管理（五）AOP日志
为了增加数据的安全性,在数据管理的过程中,我们需要将操作者访问时间,操作者的名称,访问的IP,访问资源的URL,执行时长,访问方法记录下来存储到数据库中,并可以通过页面查看. 1.将日志信息存储到数据 ...
使用Java调用exe可执行文件
一.出发点平日里,我们看到了很多已经成型的可执行文件,而且经过了一定的封装.因为开源的关系,大多时候可以自己使用eclipse进行编译,但也常常遇到不如直接调用更加方便的情况.那么这时候,我个人需要 ...
MIT线性代数：11.矩阵空间、秩1矩阵和小世界图
Pandas文本数据处理
先初始化数据 import pandas as pd import numpy as np index = pd.Index(data=["Tom", "Bob" ...
NOIP模拟 19
最近试考的脑壳疼晚上还有一场555 T1 count 研究性质题. 研究好了AC,研究不明白就没头绪首先枚举n的因子d 其次发现因为是树,所以如果合法,贡献只能是1 然后发现如果合法,一定是一棵一 ...
iOS开发高级分享 - iOS的可折叠表视图
导言我曾经开发过一个iphone应用程序,它显示了大量的输入,这些输入分为不同的类别,在`UITableView`...若要更改其中一个输入的值,用户按下表视图中的对应行,并在出现的单独屏幕中更改该 ...
python手册学习笔记3
笔记3 > http://www.pythondoc.com/pythontutorial3/datastructures.html 装饰器 def log(text): def decorat ...
javascript canvas 生成图片的方法
javascript canvas 生成图片的方法先生成base64格式的图片然后ajax传到后台写入服务器文件夹即可<pre><!DOCTYPE HTML><ht ...
Unity中用Mesh画一个圆环(二)
中目标-生成完整面在之前的内容中我们已经成功生成了一个面,接下来我们要生成剩下的面就很容易了. 我们把之前生成的面当作顶面,接着我们来生成底面. 还记得前面说过\(\color{#1E90FF}{D ...
element - ui tree
一行代码两行泪,没有外网真可怕!好久没写博客了,更新一把. <template> <div> <el-tree :data="data" :props ...

mr的partition分区

mr的partition分区的更多相关文章

随机推荐

热门专题