MR案例：定制Partitioner

可以继承基类Partitioner，也可以继承默认的HashPartitioner类，覆写其中的 getPartition() 方法实现自己的分区。

需求：本例是对上一个实例的改写，需求不变

package country;

import java.io.IOException;

import java.io.UnsupportedEncodingException;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Partitioner;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.input.KeyValueLineRecordReader;

import org.apache.hadoop.mapreduce.lib.input.KeyValueTextInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class Multiples {

    public static void main(String[] args) throws Exception {

        /**

         * 【严重注意】

         * 有分区的例子，必须达成java包在集群上运行

         * 这是因为，eclipse其实是在本地模式运行。所以只能有一个reduce

         */


        //本地模式，使用eclipse测试用的环境变量配置！

        //System.setProperty("hadoop.home.dir", "F:\\JAVA\\hadoop-2.2.0");


 

        Configuration conf = new Configuration();

        Job job = Job.getInstance(conf);

        job.setJarByClass(Multiples.class);        

        /**

         * 使用KeyValueTextInputFormat作为输入类型

         */

        job.setInputFormatClass(KeyValueTextInputFormat.class);

        /**

         * 指定 KeyValueTextInputFormat 中key和Value的分隔符【默认也是\t】

         */

        conf.set(KeyValueLineRecordReader.KEY_VALUE_SEPERATOR, "\t"); 

        job.setMapperClass(MyMapper.class);

        job.setMapOutputKeyClass(Text.class);

        job.setMapOutputValueClass(Text.class);


 

        //指定自定义的分区类

        job.setPartitionerClass(MyPartitioner.class);

        job.setReducerClass(MyReducer.class);

        job.setNumReduceTasks(3);

        job.setOutputKeyClass(Text.class);

        job.setOutputValueClass(Text.class);        

        FileInputFormat.addInputPath(job, new Path(args[0]));

        FileOutputFormat.setOutputPath(job, new Path(args[1]));

        job.waitForCompletion(true);

    }

    /**

     * map阶段

     */

    public static class MyMapper extends Mapper<Text, Text, Text, Text>{

        @Override

        protected void map(Text key, Text value, Context context)

                throws IOException, InterruptedException {

            context.write(key, value);

        }

    }

    /**

     * 分区函数

     */

    public static class MyPartitioner extends Partitioner<Text, Text>{

        @Override

        public int getPartition(Text key, Text value, int numPartitions) {

            //以utf-8编码读取汉字

            String line = null;

            try {

                line = new String(key.getBytes(),0,key.getLength(),"utf-8");

            } catch (UnsupportedEncodingException e) {

                e.printStackTrace();

            }

            if(line.equals("中国")){

                return 0;

            }else if (line.equals("美国")) {

                return 1;

            }else

                return 2;

        }

    }

    /**

     * reduce阶段

     */

    public static class MyReducer extends Reducer<Text, Text, Text, Text>{

        @Override

        protected void reduce(Text key, Iterable<Text> v2s, Context context)

                throws IOException, InterruptedException {

            for(Text text : v2s){

                context.write(key, text);

            }

        }

    }

}

MR案例：定制Partitioner的更多相关文章

MR案例：Reduce-Join
问题描述:两种类型输入文件:address(地址)和company(公司)进行一对多的关联查询,得到地址名(例如:Beijing)与公司名(例如:Beijing JD.Beijing Red Star ...
MR案例：倒排索引
1.map阶段:将单词和URI组成Key值(如“MapReduce :1.txt”),将词频作为value. 利用MR框架自带的Map端排序,将同一文档的相同单词的词频组成列表,传递给Combine过 ...
MR案例：小文件处理方案
HDFS被设计来存储大文件,而有时候会有大量的小文件生成,造成NameNode资源的浪费,同时也影响MapReduce的处理效率.有哪些方案可以合并这些小文件,或者提高处理小文件的效率呢? 1). 所 ...
MR案例：定制InputFormat
数据输入格式 InputFormat类用于描述MR作业的输入规范,主要功能:输入规范检查(比如输入文件目录的检查).对数据文件进行输入切分和从输入分块中将数据记录逐一读取出来.并转化为Map的输入键值 ...
MR案例：CombineFileInputFormat
CombineFileInputFormat是一个抽象类.Hadoop提供了两个实现类CombineTextInputFormat和CombineSequenceFileInputFormat. 此案 ...
MR案例：倒排索引 && MultipleInputs
本案例采用 MultipleInputs类实现多路径输入的倒排索引.解读:MR多路径输入 package test0820; import java.io.IOException; import j ...
MR案例：分区和排序
现有一学生成绩数据,格式如下:<学号,姓名,学院,成绩> //<id, name, institute, grade>. 需求描述:查询成绩大于等于60分的学生数据,按学院分 ...
MR案例：输出/输入SequenceFile
SequenceFile文件是Hadoop用来存储二进制形式的key-value对而设计的一种平面文件(Flat File).在SequenceFile文件中,每一个key-value对被看做是一条记 ...
MR案例：小文件合并SequeceFile
SequeceFile是Hadoop API提供的一种二进制文件支持.这种二进制文件直接将<key, value>对序列化到文件中.可以使用这种文件对小文件合并,即将文件名作为key,文件 ...

随机推荐

msvcp71.dll 怎么丢失的?如何修复
解决方法:另一台电脑上下载这个dll,再用优盘拷回来,复制到c:\windows\system32\下. 个人遇到的情况:迅雷下载东西时,或者在操作迅雷时出现的. win7 64位下点击下载
单反手动对焦M档，AV,TV,P,A,A-DEP
今天科普一下单反相机的自动对焦设置,以佳能EOS600为例,在镜头的后方会看到一个af,mf的开关.af为auto focus的缩写,自动对焦.mf为手动对焦自动曝光模式的种类: AV:光圈优先自动 ...
jquery 最全知识点图示
有个别错字,请原谅:谢谢 1.选择器 2.DOM操作 3.DOM 4.事件 5.Ajax
CentOS设置PPTP拨号连接远程服务器
本次测试在Ucloud云服务器从香港连接至广州服务器 1,环境及配置查看 2,安装ppp,pptp,pptp-setup包 yum install -y ppp pptp pptp-setup 3,使 ...
ubuntu下安装myeclipse+破解
1.给myeclipseInstaller.run权限 chmod myeclipseInstaller.run 2.安装(结束时不启动,去掉√) ./myeclipseInstaller.run 3 ...
URI 、URL 和 URN
URI URI 是 Uniform Resource Identifier 的缩写. Uniform 统一不同类型的资源.比如 txt.mp3.jpeg 等不同的类型的资源都可以使用 URI 来标识 ...
Android 关于异步Http请求，以及编码问题
大家都知道可以使用一个继承了AsyncTask的类去实现异步操作,再有个Http请求的类就可以解决了,现在我说下里面的细节问题,比如长时间无反应,编码问题,以及一些HTML相关的处理. 首先说下长时间 ...
python在处理CSV文件时，字符串和列表写入的区别
概述 Python在处理CSV文件时,如果writerow的对象是<type 'unicode'>字符串时,写入到CSV文件时将会出现一个字符占一个单元格的情况: 但是将字符串转换为列表类 ...
Python的subprocess模块（二）
原文:http://blog.chinaunix.net/uid-26000296-id-4461522.html 一.subprocess 模块简介 subprocess最早是在2.4版本中引入的. ...
etcd: request cluster ID mismatch错误解决【只适用于新建etcd集群或无数据集群】
1.报错信息 Mar 29 05:45:31 xxx etcd: request cluster ID mismatch (got 414f8613693e2e2 want cdf818194e3a8 ...

MR案例：定制Partitioner

MR案例：定制Partitioner的更多相关文章

随机推荐

热门专题