MR案例：定制Partitioner

可以继承基类Partitioner，也可以继承默认的HashPartitioner类，覆写其中的 getPartition() 方法实现自己的分区。

需求：本例是对上一个实例的改写，需求不变

package country;

import java.io.IOException;

import java.io.UnsupportedEncodingException;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Partitioner;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.input.KeyValueLineRecordReader;

import org.apache.hadoop.mapreduce.lib.input.KeyValueTextInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class Multiples {

    public static void main(String[] args) throws Exception {

        /**

         * 【严重注意】

         * 有分区的例子，必须达成java包在集群上运行

         * 这是因为，eclipse其实是在本地模式运行。所以只能有一个reduce

         */


        //本地模式，使用eclipse测试用的环境变量配置！

        //System.setProperty("hadoop.home.dir", "F:\\JAVA\\hadoop-2.2.0");


 

        Configuration conf = new Configuration();

        Job job = Job.getInstance(conf);

        job.setJarByClass(Multiples.class);        

        /**

         * 使用KeyValueTextInputFormat作为输入类型

         */

        job.setInputFormatClass(KeyValueTextInputFormat.class);

        /**

         * 指定 KeyValueTextInputFormat 中key和Value的分隔符【默认也是\t】

         */

        conf.set(KeyValueLineRecordReader.KEY_VALUE_SEPERATOR, "\t"); 

        job.setMapperClass(MyMapper.class);

        job.setMapOutputKeyClass(Text.class);

        job.setMapOutputValueClass(Text.class);


 

        //指定自定义的分区类

        job.setPartitionerClass(MyPartitioner.class);

        job.setReducerClass(MyReducer.class);

        job.setNumReduceTasks(3);

        job.setOutputKeyClass(Text.class);

        job.setOutputValueClass(Text.class);        

        FileInputFormat.addInputPath(job, new Path(args[0]));

        FileOutputFormat.setOutputPath(job, new Path(args[1]));

        job.waitForCompletion(true);

    }

    /**

     * map阶段

     */

    public static class MyMapper extends Mapper<Text, Text, Text, Text>{

        @Override

        protected void map(Text key, Text value, Context context)

                throws IOException, InterruptedException {

            context.write(key, value);

        }

    }

    /**

     * 分区函数

     */

    public static class MyPartitioner extends Partitioner<Text, Text>{

        @Override

        public int getPartition(Text key, Text value, int numPartitions) {

            //以utf-8编码读取汉字

            String line = null;

            try {

                line = new String(key.getBytes(),0,key.getLength(),"utf-8");

            } catch (UnsupportedEncodingException e) {

                e.printStackTrace();

            }

            if(line.equals("中国")){

                return 0;

            }else if (line.equals("美国")) {

                return 1;

            }else

                return 2;

        }

    }

    /**

     * reduce阶段

     */

    public static class MyReducer extends Reducer<Text, Text, Text, Text>{

        @Override

        protected void reduce(Text key, Iterable<Text> v2s, Context context)

                throws IOException, InterruptedException {

            for(Text text : v2s){

                context.write(key, text);

            }

        }

    }

}

MR案例：定制Partitioner的更多相关文章

MR案例：Reduce-Join
问题描述:两种类型输入文件:address(地址)和company(公司)进行一对多的关联查询,得到地址名(例如:Beijing)与公司名(例如:Beijing JD.Beijing Red Star ...
MR案例：倒排索引
1.map阶段:将单词和URI组成Key值(如“MapReduce :1.txt”),将词频作为value. 利用MR框架自带的Map端排序,将同一文档的相同单词的词频组成列表,传递给Combine过 ...
MR案例：小文件处理方案
HDFS被设计来存储大文件,而有时候会有大量的小文件生成,造成NameNode资源的浪费,同时也影响MapReduce的处理效率.有哪些方案可以合并这些小文件,或者提高处理小文件的效率呢? 1). 所 ...
MR案例：定制InputFormat
数据输入格式 InputFormat类用于描述MR作业的输入规范,主要功能:输入规范检查(比如输入文件目录的检查).对数据文件进行输入切分和从输入分块中将数据记录逐一读取出来.并转化为Map的输入键值 ...
MR案例：CombineFileInputFormat
CombineFileInputFormat是一个抽象类.Hadoop提供了两个实现类CombineTextInputFormat和CombineSequenceFileInputFormat. 此案 ...
MR案例：倒排索引 && MultipleInputs
本案例采用 MultipleInputs类实现多路径输入的倒排索引.解读:MR多路径输入 package test0820; import java.io.IOException; import j ...
MR案例：分区和排序
现有一学生成绩数据,格式如下:<学号,姓名,学院,成绩> //<id, name, institute, grade>. 需求描述:查询成绩大于等于60分的学生数据,按学院分 ...
MR案例：输出/输入SequenceFile
SequenceFile文件是Hadoop用来存储二进制形式的key-value对而设计的一种平面文件(Flat File).在SequenceFile文件中,每一个key-value对被看做是一条记 ...
MR案例：小文件合并SequeceFile
SequeceFile是Hadoop API提供的一种二进制文件支持.这种二进制文件直接将<key, value>对序列化到文件中.可以使用这种文件对小文件合并,即将文件名作为key,文件 ...

随机推荐

160329(二)、web.xml配置详解
1.启动一个WEB项目的时候,WEB容器会去读取它的配置文件web.xml,读取<listener>和<context-param>两个结点. 2.紧急着,容创建一个Servl ...
160317（一）、在非action中获取request
HttpServletRequest request = ((ServletRequestAttributes) RequestContextHolder.getRequestAttributes() ...
python--get_data_from_csv_or_txt
一.从csv文件中获取 import osimport csv class GetDataFromCsvFile(): def __init__(self, csv_file, params_list ...
Servlet------>jsp自定义标签1（简单入门）
自定义标签能做什么: 1.移除java代码 2.控制jsp页面某一部分是否执行 3.控制整个jsp是否执行 3.jsp内容重复输出 4.修改jsp内容输出效果: 首先先写好实现这个标签的java类, ...
odex反编译dex异常 Cannot locate boot class path file /system/framework/core.odex
为了将ROM中system/app下的CertInstaller.odex反编译为CertInstaller.dex,输入命令: "java -jar baksmali.jar -x C ...
状态维持在web层每层都可以Cache
API网关的开源解决方案那么多,为什么我们却还要选择自研? - SDK.CN - 中国领先的开发者服务平台 https://sdk.cn/news/8001 技术细节Microservice+SOA状 ...
js如何转义和反转义html特殊字符
“<”如何反转义为“<”,“>”如何反转义为“>”,下面就介绍如何用js来实现这种类似的操作. //HTML转义 function HTMLEncode(html) { var ...
sdut3140 A*B（math)
题目:传送门题目描述 Your task is to find the minimal positive integer number Q so that the product of digits ...
Linux文件权限分析
一.用户组概念在linux系统中,每个用户必属于一个组,不能独立于组之外.每个文件都有所有者,所在组和其他组这三个概念. (1)所有者:一般为文件的创建者,谁创建了该文件,就成为了该文件的所有者, ...
Numpy包简单介绍
详细介绍可以看Numpy帮助,也有很多资料,此文仅是一个简述性质的集成文章 1.简介 Numpy是Python的一个扩展包,语法和Matlab有很多相似之处.它支持高维数组和矩阵运算,也提供了许多数组 ...

MR案例：定制Partitioner

MR案例：定制Partitioner的更多相关文章

随机推荐

热门专题