MapReduce分区的使用(Partition)

MapReduce中的分区默认是哈希分区，根据map输出key的哈希值做模运算，如下

int result = key.hashCode()%numReduceTask;

如果我们需要根据业务需求来将map读入的数据按照某些特定条件写入不同的文件，那就需要自定义实现Partition，自定义规则

举个简单的例子，使用MapReduce做wordcount，但是需要根据单词的长度写入不同的文件中，单词的长度大于4的写入一个文件，小于等于4的写入另一个文件

代码结构如下

代码实现如下

MapTest.java

/**

 *

 */

package com.zhen.partition;

import java.io.IOException;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Mapper;

/**

 * @author FengZhen

 *

 */

public class MapTest extends Mapper<LongWritable, Text, Text, IntWritable>{

    private IntWritable outputValue = new IntWritable();

    @Override

    protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, Text, IntWritable>.Context context)

            throws IOException, InterruptedException {

        String[] splits = value.toString().split("\t");

        for (int i = ; i < splits.length; i++) {

            context.write(new Text(splits[i]), outputValue);

        }

    }

}

ReduceTest.java

/**

 *

 */

package com.zhen.partition;

import java.io.IOException;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Reducer;

/**

 * @author FengZhen

 *

 */

public class ReduceTest extends Reducer<Text, IntWritable, Text, IntWritable>{

    @Override

    protected void reduce(Text key, Iterable<IntWritable> value,

            Reducer<Text, IntWritable, Text, IntWritable>.Context context) throws IOException, InterruptedException {

        int sum = ;

        for (IntWritable intWritable : value) {

            sum += intWritable.get();

        }

        context.write(key, new IntWritable(sum));

    }

}

PartitionTest.java

/**

 *

 */

package com.zhen.partition;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Partitioner;

/**

 * @author FengZhen

 * 第一个参数：map的输出key类型

 * 第二个参数：map的输出value类型

 */

public class PartitionTest extends Partitioner<Text, IntWritable>{

    /**

     * key:map的输出key

     * value:mapd的输出value

     * numReduceTask:reduce的task数量

     * 返回值，指定reduce，从0开始

     * */

    @Override

    public int getPartition(Text key, IntWritable value, int numReduceTask) {

        if (key.toString().length()>) {

            return ;

        }else{

            return ;

        }

    }

}

PartitionTestMain.java

/**

 *

 */

package com.zhen.partition;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.NullWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

/**

 * @author FengZhen

 *

 */

public class PartitionTestMain {

    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {

        Configuration configuration = new Configuration();

        Job job = new Job(configuration, PartitionTestMain.class.getSimpleName());

        job.setJarByClass(PartitionTestMain.class);

        job.setMapperClass(MapTest.class);

        job.setMapOutputKeyClass(Text.class);

        job.setMapOutputValueClass(IntWritable.class);

        job.setReducerClass(ReduceTest.class);

        job.setOutputKeyClass(Text.class);

        job.setOutputValueClass(IntWritable.class);

        job.setCombinerClass(ReduceTest.class);
　　　　　//设置分区类

        job.setPartitionerClass(PartitionTest.class);
        //设置reduce任务个数

        job.setNumReduceTasks();

        FileInputFormat.addInputPath(job, new Path(args[]));

        FileOutputFormat.setOutputPath(job, new Path(args[]));

        System.exit(job.waitForCompletion(true)?:);

    }

}

打包测试

hadoop jar /Users/FengZhen/Desktop/Hadoop/other/mapreduce_jar/PartitionTest.jar com.zhen.partition.PartitionTestMain /user/hadoop/mapreduce/partitionTest/input /user/hadoop/mapreduce/partitionTest/output/

任务结束后可看到输出路径下有两个结果文件

EFdeMacBook-Pro:file FengZhen$ hadoop fs -ls /user/hadoop/mapreduce/partitionTest/output/

Found  items

-rw-r--r--    FengZhen supergroup           -- : /user/hadoop/mapreduce/partitionTest/output/_SUCCESS

-rw-r--r--    FengZhen supergroup          -- : /user/hadoop/mapreduce/partitionTest/output/part-r-

-rw-r--r--    FengZhen supergroup          -- : /user/hadoop/mapreduce/partitionTest/output/part-r-

查看文件内容，是按照条件来分别输出的

part-r-00000中是length > 4的单词

part-r-00001中是length <= 4的单词

MapReduce分区的使用(Partition)的更多相关文章

Hadoop Mapreduce分区、分组、二次排序过程详解[转]
原文地址:Hadoop Mapreduce分区.分组.二次排序过程详解[转]作者: 徐海蛟教学用途 1.MapReduce中数据流动 (1)最简单的过程: map - reduce (2) ...
SQL Server 查看分区表（partition table）的分区范围（partition range）
https://www.cnblogs.com/chuncn/archive/2009/02/20/1395165.html SQL Server 2005 的分区表(partition table) ...
如何让阿三 Windows 10、11 的恢复分区（Recovery Partition）恢复到 “盖茨” 模式
如何将 Windows Server 2022 的恢复分区(Recovery Partition)移动到 C 盘之前,恢复 C 盘容量调整功能. 请访问原文链接:https://sysin.org/b ...
Hadoop(17)-MapReduce框架原理-MapReduce流程,Shuffle机制,Partition分区
MapReduce工作流程 1.准备待处理文件 2.job提交前生成一个处理规划 3.将切片信息job.split,配置信息job.xml和我们自己写的jar包交给yarn 4.yarn根据切片规划计 ...
hadoop2.2.0 MapReduce分区
package com.my.hadoop.mapreduce.partition; import java.util.HashMap;import java.util.Map; import org ...
Hadoop Mapreduce分区、分组、二次排序
1.MapReduce中数据流动 (1)最简单的过程: map - reduce (2)定制了partitioner以将map的结果送往指定reducer的过程: map - partiti ...
Hadoop Mapreduce分区、分组、二次排序过程详解
转载:http://blog.tianya.cn/m/post.jsp?postId=53271442 1.MapReduce中数据流动 (1)最简单的过程: map - reduce (2)定制了 ...
MapReduce中combine、partition、shuffle的作用是什么
http://www.aboutyun.com/thread-8927-1-1.html Mapreduce在hadoop中是一个比較难以的概念.以下须要用心看,然后自己就能总结出来了. 概括: co ...
mapreduce分区
本次分区是采用项目垃圾分类的csv文件,按照小于4的分为一个文件,大于等于4的分为一个文件源代码: PartitionMapper.java: package cn.idcast.partition ...

随机推荐

php序列化&反序列化坑
一: 在php中如果我们统一编码是没有什么问题了,但是很多朋友会发现一个问题就是utf8和gbk编码中返回的值会有所区别: php 在utf8和gbk编码下使用serialize和unserializ ...
File 的基本操作
package xinhuiji_day07; import java.io.File;import java.io.IOException; public class FileTest { /** ...
Win7 64bit+Anaconda(3-5.0.1,Python3.6)+Pycharm(community-2017.3.3)+OpenCV(python‑3.4.0‑cp36‑cp36m)（转载）
Anaconda(3-5.0.1,Python3.6)下载链接:https://pan.baidu.com/s/1bqFwLMB 密码:37ih Pycharm(community-2017.3.3) ...
GDB + gdbserver 远程调试mediaserver进程
远程调试步骤在Android设备上启动gdbserver并attach你想调试的进程,并指定监听调试命令的端口(此端口是TV上的端口) $ adb shell # ps |grep media # ...
Oracle Data Provider for .NET的使用（二）-驱动更换与注意事项
上篇说过了ODP的安装与配置 ,但是个人比较喜欢托管类型的,毕竟非托管类型的,因为考虑到会有用户或者是服务器或者是开发人员有32位的机器,就要强制编译平台平台为32位,只因为这个驱动,有点让人不愉快了 ...
hiho一下第115周：网络流一•Ford-Fulkerson算法（Edmond-Karp，Dinic，SAP）
来看一道最大流模板水题,借这道题来学习一下最大流的几个算法. 分别用Edmond-Karp,Dinic ,SAP来实现最大流算法. 从运行结过来看明显SAP+当前弧优化+gap优化速度最快. hi ...
JavaEE应用基础平台 AOS-V0.1 RELEASED
写在最前面 AOS是一个有着悠久历史传承和发扬的平台.她的前世G4Studio自2010年公布V1.0版本号以来,先后经过多次版本号更新.并得到了一些小伙伴的认可和使用.但我们希望做得更好,走得更远. ...
poj2485
Highways Time Limit: 1000MS Memory Limit: 65536K Total Submissions: 27912 Accepted: 12734 Descri ...
SecureCRT的Home+End+Del键映射
在securecrt界面:工具 → 键映射编辑器,在弹出的键盘中: 1.点击“home”,会弹出一个窗口,在“发送字符串”中输入:\033[1~ 2.点击“end”,会弹出一个窗口,在“发送字符串”中 ...
vue中handsontable 使用
handsontable是目前在前端界最接近excel的插件,可以执行编辑,复制粘贴,插入删除行列,排序等复杂操作 1.安装模块包 npm install handsontable-pro @hand ...

MapReduce分区的使用(Partition)

MapReduce分区的使用(Partition)的更多相关文章

随机推荐

热门专题