MapReduce分区的使用(Partition)

MapReduce中的分区默认是哈希分区，根据map输出key的哈希值做模运算，如下

int result = key.hashCode()%numReduceTask;

如果我们需要根据业务需求来将map读入的数据按照某些特定条件写入不同的文件，那就需要自定义实现Partition，自定义规则

举个简单的例子，使用MapReduce做wordcount，但是需要根据单词的长度写入不同的文件中，单词的长度大于4的写入一个文件，小于等于4的写入另一个文件

代码结构如下

代码实现如下

MapTest.java

/**

 *

 */

package com.zhen.partition;

import java.io.IOException;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Mapper;

/**

 * @author FengZhen

 *

 */

public class MapTest extends Mapper<LongWritable, Text, Text, IntWritable>{

    private IntWritable outputValue = new IntWritable();

    @Override

    protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, Text, IntWritable>.Context context)

            throws IOException, InterruptedException {

        String[] splits = value.toString().split("\t");

        for (int i = ; i < splits.length; i++) {

            context.write(new Text(splits[i]), outputValue);

        }

    }

}

ReduceTest.java

/**

 *

 */

package com.zhen.partition;

import java.io.IOException;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Reducer;

/**

 * @author FengZhen

 *

 */

public class ReduceTest extends Reducer<Text, IntWritable, Text, IntWritable>{

    @Override

    protected void reduce(Text key, Iterable<IntWritable> value,

            Reducer<Text, IntWritable, Text, IntWritable>.Context context) throws IOException, InterruptedException {

        int sum = ;

        for (IntWritable intWritable : value) {

            sum += intWritable.get();

        }

        context.write(key, new IntWritable(sum));

    }

}

PartitionTest.java

/**

 *

 */

package com.zhen.partition;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Partitioner;

/**

 * @author FengZhen

 * 第一个参数：map的输出key类型

 * 第二个参数：map的输出value类型

 */

public class PartitionTest extends Partitioner<Text, IntWritable>{

    /**

     * key:map的输出key

     * value:mapd的输出value

     * numReduceTask:reduce的task数量

     * 返回值，指定reduce，从0开始

     * */

    @Override

    public int getPartition(Text key, IntWritable value, int numReduceTask) {

        if (key.toString().length()>) {

            return ;

        }else{

            return ;

        }

    }

}

PartitionTestMain.java

/**

 *

 */

package com.zhen.partition;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.NullWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

/**

 * @author FengZhen

 *

 */

public class PartitionTestMain {

    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {

        Configuration configuration = new Configuration();

        Job job = new Job(configuration, PartitionTestMain.class.getSimpleName());

        job.setJarByClass(PartitionTestMain.class);

        job.setMapperClass(MapTest.class);

        job.setMapOutputKeyClass(Text.class);

        job.setMapOutputValueClass(IntWritable.class);

        job.setReducerClass(ReduceTest.class);

        job.setOutputKeyClass(Text.class);

        job.setOutputValueClass(IntWritable.class);

        job.setCombinerClass(ReduceTest.class);
　　　　　//设置分区类

        job.setPartitionerClass(PartitionTest.class);
        //设置reduce任务个数

        job.setNumReduceTasks();

        FileInputFormat.addInputPath(job, new Path(args[]));

        FileOutputFormat.setOutputPath(job, new Path(args[]));

        System.exit(job.waitForCompletion(true)?:);

    }

}

打包测试

hadoop jar /Users/FengZhen/Desktop/Hadoop/other/mapreduce_jar/PartitionTest.jar com.zhen.partition.PartitionTestMain /user/hadoop/mapreduce/partitionTest/input /user/hadoop/mapreduce/partitionTest/output/

任务结束后可看到输出路径下有两个结果文件

EFdeMacBook-Pro:file FengZhen$ hadoop fs -ls /user/hadoop/mapreduce/partitionTest/output/

Found  items

-rw-r--r--    FengZhen supergroup           -- : /user/hadoop/mapreduce/partitionTest/output/_SUCCESS

-rw-r--r--    FengZhen supergroup          -- : /user/hadoop/mapreduce/partitionTest/output/part-r-

-rw-r--r--    FengZhen supergroup          -- : /user/hadoop/mapreduce/partitionTest/output/part-r-

查看文件内容，是按照条件来分别输出的

part-r-00000中是length > 4的单词

part-r-00001中是length <= 4的单词

MapReduce分区的使用(Partition)的更多相关文章

Hadoop Mapreduce分区、分组、二次排序过程详解[转]
原文地址:Hadoop Mapreduce分区.分组.二次排序过程详解[转]作者: 徐海蛟教学用途 1.MapReduce中数据流动 (1)最简单的过程: map - reduce (2) ...
SQL Server 查看分区表（partition table）的分区范围（partition range）
https://www.cnblogs.com/chuncn/archive/2009/02/20/1395165.html SQL Server 2005 的分区表(partition table) ...
如何让阿三 Windows 10、11 的恢复分区（Recovery Partition）恢复到 “盖茨” 模式
如何将 Windows Server 2022 的恢复分区(Recovery Partition)移动到 C 盘之前,恢复 C 盘容量调整功能. 请访问原文链接:https://sysin.org/b ...
Hadoop(17)-MapReduce框架原理-MapReduce流程,Shuffle机制,Partition分区
MapReduce工作流程 1.准备待处理文件 2.job提交前生成一个处理规划 3.将切片信息job.split,配置信息job.xml和我们自己写的jar包交给yarn 4.yarn根据切片规划计 ...
hadoop2.2.0 MapReduce分区
package com.my.hadoop.mapreduce.partition; import java.util.HashMap;import java.util.Map; import org ...
Hadoop Mapreduce分区、分组、二次排序
1.MapReduce中数据流动 (1)最简单的过程: map - reduce (2)定制了partitioner以将map的结果送往指定reducer的过程: map - partiti ...
Hadoop Mapreduce分区、分组、二次排序过程详解
转载:http://blog.tianya.cn/m/post.jsp?postId=53271442 1.MapReduce中数据流动 (1)最简单的过程: map - reduce (2)定制了 ...
MapReduce中combine、partition、shuffle的作用是什么
http://www.aboutyun.com/thread-8927-1-1.html Mapreduce在hadoop中是一个比較难以的概念.以下须要用心看,然后自己就能总结出来了. 概括: co ...
mapreduce分区
本次分区是采用项目垃圾分类的csv文件,按照小于4的分为一个文件,大于等于4的分为一个文件源代码: PartitionMapper.java: package cn.idcast.partition ...

随机推荐

dockerfile+ubuntu+nginx搭建web环境
准备目录 [root@izchz ~]# mkdir /usr/local/dockerfile1 该目录下准备Dockerfile文件 FROM ubuntu MAINTAINER xbf RUN ...
js 正则匹配域名【host】
如果直接在js中是可以直接取到hostname的,以下方式是通过正则匹配: var url = "http://www.cnblogs.com/cench" var reg = / ...
python 迭代及列表生成式
什么是迭代在Python中,如果给定一个list或tuple,我们可以通过for循环来遍历这个list或tuple,这种遍历我们成为迭代(Iteration). 在Python中,迭代是通过 for ...
[译]GLUT教程 - 位图和正交投影视图
Lighthouse3d.com >> GLUT Tutorial >> Fonts >> Bitmap Fonts and Orthogonal Projecti ...
Wormholes - poj 3259 (Bellman-Ford算法)
Time Limit: 2000MS Memory Limit: 65536K Total Submissions: 34934 Accepted: 12752 Description W ...
IDEA 去掉 ALT + / 自动补全
取消掉Alt + / 自动补全 setting -> keymap -> main menu -> code -> completion -> cyclic Expand ...
python 线程安全
http://www.cnblogs.com/monsteryang/p/6592385.html
线段树专题—HDU1698 Just a Hook
题意:t组数据,给一个n.m表示n长度的钩和m次操作.初始钩子的每单位长度的价值为1,接下来输入 x,y,k 的操作把钩子[x,y]区间的价值替换为k,求m次操作后钩子的价值为多少分析:成段替换.最 ...
[转]maven2中snapshot快照库和release发布库的区别和作用
Post by 铁木箱子 in 技术杂谈 on 2010-08-03 17:17 [转载声明] 转载时必须标注:本文来源于铁木箱子的博客http://www.mzone.cc[原文地址] 原文永久地址 ...
C语言基础知识【指针】
2017年7月11日18:33:41C指针该看地址:http://www.runoob.com/cprogramming/c-pointers.html1.学习 C 语言的指针既简单又有趣.通过指 ...

MapReduce分区的使用(Partition)

MapReduce分区的使用(Partition)的更多相关文章

随机推荐

热门专题