MapReduce Partition解析

Map的结果，会通过partition分发到Reducer上，reducer操作过后会进行输出。输出的文件格式后缀000001就代表1分区。

Mapper处理过后的键值对，是需要送到Reducer那边进行合并，具有相同的key的键值对会送到同一个Reducer上面。哪个key到哪个Reducer的分配过程，是由Partition决定的

里面只有一个方法getPartition()

@Public

@Stable

public abstract class Partitioner<KEY, VALUE> {

    public Partitioner() {

    }

    public abstract int getPartition(KEY var1, VALUE var2, int var3);

}

输入（形参）是Map的结果对<key, value>和reducerTask的数目，输出（返回值）则是分配的Reducer（整数编号）。

就是指定某个Mapper输出的键值对到哪一个reducer上去。

系统缺省的Partitioner是HashPartitioner，它的实现是以key的hashcode对reducer的数值取模，得到对应的Reducer。这样就保证了相同的key值，分配到了同一个Reducer上。编号不大于指定的reducerTasks，0,1,2······（n-1）。

job.setPartitionerClass(JournalDataPartitioner.class);

job.setNumReduceTasks(CollectionUtils.isEmpty(branchIds) ? 3 : branchIds.size() + 1);

partition类

private static class JournalDataPartitioner extends Partitioner<Text, JournalTrxDataSet> {

        @Override

        public int getPartition(Text key, JournalTrxDataSet value, int arg2) {

            if (!CollectionUtils.isEmpty(branchIds)){

                for (int i = 0; i < branchIds.size(); i++) {

                    if (branchIds.get(i).equals(value.getBranchId())){

                        log.info(">>>>>> i = {}", i);

                        return i + 1;

                    }

                }

                return 0;

            }else {

                if ("706010101".equals(value.getBranchId())) {

                    return 1;

                } else if ("706010106".equals(value.getBranchId())) {

                    return 2;

                }

                return 0;

            }

        }

    }

MapReduce Partition解析的更多相关文章

Mapreduce 框架解析
MapReduce过程解析一.客户端 Map-Reduce的过程首先是由客户端提交一个任务开始的. public static RunningJob runJob(JobConf job) thro ...
Hadoop — MapReduce原理解析
1. 概述 Mapreduce是一个分布式运算程序的编程框架,是用户开发"基于hadoop的数据分析应用"的核心框架: Mapreduce核心功能是将用户编写的业务逻辑代码和自带默 ...
MapReduce编程解析
MapReduce编程模型之案例 wordcount 输入数据 atguigu atguiguss sscls clsjiaobanzhangxuehadoop 输出数据 atguigu 2banzh ...
Hadoop中Partition解析
1.解析Partition Map的结果,会通过partition分发到Reducer上,Reducer做完Reduce操作后,通过OutputFormat,进行输出,下面我们就来分析参与这个过程的类 ...
[转] hadoop MapReduce实例解析-非常不错，讲解清晰
来源:http://blog.csdn.net/liuxiaochen123/article/details/8786715?utm_source=tuicool 2013-04-11 10:15 4 ...
批处理引擎MapReduce程序设计
批处理引擎MapReduce程序设计作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.MapReduce API Hadoop同时提供了新旧两套MapReduce API,新AP ...
【Hadoop】mapreduce环形缓冲区
mapreduce过程解析数据在map中怎么写入磁盘? 数据:经过map逻辑处理过后的数据(key,value)- 磁盘:本地磁盘环形缓冲区 1.为什么要环形缓冲区? 答:使用环形缓冲区,便于写入 ...
hadoop jobhistory解析工具汇总
1. White Elephant是LinkedIn开源的一套Hadoop 作业日志收集器和展示器,使用mapreduce作业解析jobhistory日志,得到每个用户使用的资源情况,并通过网页展示. ...
hadoop下跑mapreduce程序报错
mapreduce真的是门学问,遇到的问题逼着我把它从MRv1摸索到MRv2,从年前就牵挂在心里,连过年回家的旅途上都是心情凝重,今天终于在eclipse控制台看到了job completed suc ...

随机推荐

MySQL内部执行流程
本文参照自:https://www.cnblogs.com/xiaotengyi/articles/3641983.html mysql处理java传过来的SQL具体步骤: 1.java通过JDBC获 ...
springboot整合mybatis的多数据源解决办法
最近项目有一个非解决不可的问题,我们的项目中的用户表是用的自己库的数据,但是这些数据都是从一个已有库中迁过来的,所以用户信息都是在那个项目里面维护,自然而然我们项目不提供用户注册功能,这就有个问题,如 ...
在pycharm中查看内建函数源码
鼠标放在内建函数上,Ctrl+B,看源码
比sun.misc.Encoder()/Decoder()的base64更高效的mxBase64算法
package com.mxgraph.online; import java.util.Arrays; /** A very fast and memory efficient class to e ...
ViewPager + TabLayout + Fragment + MediaPlayer的使用
效果图在gradle里导包 implementation 'com.android.support:design:28.0.0' activity_main <?xml version=&q ...
Vue-router的三种传参方式
第一种传递参数:name传参两步完成name传参并显示在模板中: 第一在router/index.js中配置name属性, routes: [ { path: '/', name: 'HelloWo ...
CentOs7 最小安装版安装后配置和java环境的搭建
下面是contos7 最小化安装成功以后进行一些基础的配置和java环境的安装教程: 1 防火墙 : 关闭防火墙: systemctl stop firewalld.service . 关闭开机启 ...
css 常见属性
字体属性:(font) 大小 font-size: x-large;(特大) xx-small;(极小) 一般中文用不到,只要用数值就可以,单位:PX.PD 样式 font-style: obliqu ...
用UE4蓝图制作FPS_零基础学虚幻4第二季
课时1:案例演示 05:12 课时2:工程准备 07:35 (把一个项目从一个工程移动到另一个工程) 1.新建一个空白工程,不包含初学者内容 2.选择我们要复制的工程,按右键,如下图: 复制到新工程的 ...
Linux下C语言生成可执行文件的过程
在当前目录下创建一个C源文件并打开: touch test.c gedit test.c直接编译: gcc test.c -o test 分步骤编译: 1) 预处理 gcc -E test.c ...

MapReduce Partition解析

MapReduce Partition解析的更多相关文章

随机推荐

热门专题