我使用hadoop的是hadoop1.1.2，而很多公司也在使用hadoop0.2x版本，因此市面上的hadoop资料版本不一，为了扩充自己的知识面，MapReduce的新旧api进行了比较研究。

　　hadoop版本1.x的包一般是mapreduce
　　hadoop版本0.x的包一般是mapred

我们还是以单词统计为例进行研究，代码如下，如代码1.1所示：

package old;

import java.io.IOException;

import java.net.URI;

import java.util.Iterator;

import mapreduce.WordCountApp;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapred.FileInputFormat;

import org.apache.hadoop.mapred.FileOutputFormat;

import org.apache.hadoop.mapred.JobClient;

import org.apache.hadoop.mapred.JobConf;

import org.apache.hadoop.mapred.MapReduceBase;

import org.apache.hadoop.mapred.Mapper;

import org.apache.hadoop.mapred.OutputCollector;

import org.apache.hadoop.mapred.Reducer;

import org.apache.hadoop.mapred.Reporter;

/**

 * hadoop版本1.x的包一般是mapreduce

 * hadoop版本0.x的包一般是mapred

 *

 */

public class OldAPP {

    static final String INPUT_PATH = "hdfs://hadoop:9000/hello";

    static final String OUT_PATH = "hdfs://hadoop:9000/out";

    /**

     * 改动：

     * 1.不再使用Job，而是使用JobConf

     * 2.类的包名不再使用mapreduce，而是使用mapred

     * 3.不再使用job.waitForCompletion(true)提交作业，而是使用JobClient.runJob(job);

     *

     */

    public static void main(String[] args) throws Exception {

        Configuration conf = new Configuration();

        final FileSystem fileSystem = FileSystem.get(new URI(INPUT_PATH), conf);

        final Path outPath = new Path(OUT_PATH);

        if(fileSystem.exists(outPath)){

            fileSystem.delete(outPath, true);

        }

        final JobConf job = new JobConf(conf , WordCountApp.class);

        //1.1指定读取的文件位于哪里

        FileInputFormat.setInputPaths(job, INPUT_PATH);

        //指定如何对输入文件进行格式化，把输入文件每一行解析成键值对

        //job.setInputFormatClass(TextInputFormat.class);

        //1.2 指定自定义的map类

        job.setMapperClass(MyMapper.class);

        //map输出的<k,v>类型。如果<k3,v3>的类型与<k2,v2>类型一致，则可以省略

        //job.setMapOutputKeyClass(Text.class);

        //job.setMapOutputValueClass(LongWritable.class);

        //1.3 分区

        //job.setPartitionerClass(HashPartitioner.class);

        //有一个reduce任务运行

        //job.setNumReduceTasks(1);

        //1.4 TODO 排序、分组

        //1.5 TODO 规约

        //2.2 指定自定义reduce类

        job.setReducerClass(MyReducer.class);

        //指定reduce的输出类型

        job.setOutputKeyClass(Text.class);

        job.setOutputValueClass(LongWritable.class);

        //2.3 指定写出到哪里

        FileOutputFormat.setOutputPath(job, outPath);

        //指定输出文件的格式化类

        //job.setOutputFormatClass(TextOutputFormat.class);

        //把job提交给JobTracker运行

        JobClient.runJob(job);

    }

    /**

     * 新api:extends Mapper

     * 老api:extends MapRedcueBase implements Mapper

     */

    static class MyMapper extends MapReduceBase implements Mapper<LongWritable, Text, Text, LongWritable>{

        @Override

        public void map(LongWritable k1, Text v1,

                OutputCollector<Text, LongWritable> collector, Reporter reporter)

                throws IOException {

            final String[] splited = v1.toString().split("\t");

            for (String word : splited) {

                collector.collect(new Text(word), new LongWritable(1));

            }

        }

    }

    static class MyReducer extends MapReduceBase implements Reducer<Text, LongWritable, Text, LongWritable>{

        @Override

        public void reduce(Text k2, Iterator<LongWritable> v2s,

                OutputCollector<Text, LongWritable> collector, Reporter reporter)

                throws IOException {

            long times = 0L;

            while (v2s.hasNext()) {

                final long temp = v2s.next().get();

                times += temp;

            }

            collector.collect(k2, new LongWritable(times));

        }

    }

}

代码 1.1

一、自定义Mapper类的不同

　　在新api中，是继承类org.apache.hadoop.mapreduce.Mapper<KEYIN, VALUEIN, KEYOUT, VALUEOUT>。在旧api中，是继承类org.apache.hadoop.mapred.MapReduceBase，然后实现接口 org.apache.hadoop.mapred.Mapper<K1, V1, K2, V2>。在新api中，覆盖的map方法的第三个参数是Context类；在旧api中，覆盖的map方法的第三、四个形参分别是OutputCollector和Reporter类。在新api的Context中已经把两个类的功能合并到一起了，用户操作更简单。使用旧api的自定义Mapper类，如代码1.2所示所示。key、value对。每一个键值对调用一次map函数。

 /**

      * 新api:extends Mapper

      * 老api:extends MapRedcueBase implements Mapper

      */

     static class MyMapper extends MapReduceBase implements Mapper<LongWritable, Text, Text, LongWritable>{

         @Override

         public void map(LongWritable k1, Text v1,

                 OutputCollector<Text, LongWritable> collector, Reporter reporter)

                 throws IOException {

             final String[] splited = v1.toString().split("\t");

             for (String word : splited) {

                 collector.collect(new Text(word), new LongWritable(1));

             }

         }

     }

代码 1.2

二、自定义Reducer类的不同

　　在新api中，是继承类org.apache.hadoop.mapreduce.Reducer<KEYIN, VALUEIN, KEYOUT, VALUEOUT>。在旧api中，是继承类org.apache.hadoop.mapred.MapReduceBase，然后实现接口 org.apache.hadoop.mapred. Reducer<K1, V1, K2, V2>。在新api中覆盖的reduce方法的第二个参数是java.lang.Iterable<VALUEIN>。在旧api中,覆盖的 reduce方法的第二个参数是java.util.Iterator<V 2>。前者可以使用增强for循环进行处理，后者只能使用 while循环处理了。在新api中，覆盖的reduce方法的第三个参数是Context类；在旧api中，覆盖的reduce方法的第三、四个形参分别是OutputCollector和Reporter类。在新api的Context中已经把两个类的功能合并到一起了，用户操作更简单。使用旧api的自定义Reducer类，代码如2.1所示。

 static class MyReducer extends MapReduceBase implements Reducer<Text, LongWritable, Text, LongWritable>{

         @Override

         public void reduce(Text k2, Iterator<LongWritable> v2s,

                 OutputCollector<Text, LongWritable> collector, Reporter reporter)

                 throws IOException {

             long times = 0L;

             while (v2s.hasNext()) {

                 final long temp = v2s.next().get();

                 times += temp;

             }

             collector.collect(k2, new LongWritable(times));

         }

     }

代码 2.1

三、驱动代码main方法的不同

　　在新api中，驱动代码主要是通过org.apache.hadoop.mapreduce.Job类实现的，通过该类管理各种配置，然后调用waitForCompleti on(boolean)方法把代码提交给JobTracker执行。在旧api中，驱动代码主要是通过 org.apache.hadoop.mapred.JobConf.JobConf(Con figuration, Class)类实现的，通过该类管理各种配置。对于job的提交，是通过org.apache.hadoop.mapred.JobClient类的 runJob(JobC onf)方法实现的。可见，新api中把JobConf和JobClient的功能进行了合并，用户调用更方便。

　　其中，JobConf类与Job类的方法名称几乎一致，只是传递的形参类型大不相同了。在新api中的Job类，要求setXXX(…)的形参必须是org .apache.hadoop.mapreduce及其子包下面的类；而旧api中的JobConf类，要求setXXX(…)的形参必须是 org.apache.hadoop.mapred及其子包下面的类。使用旧api的驱动代码main方法，如代码3.1所示。

 package old;

 import java.io.IOException;

 import java.net.URI;

 import java.util.Iterator;

 import mapreduce.WordCountApp;

 import org.apache.hadoop.conf.Configuration;

 import org.apache.hadoop.fs.FileSystem;

 import org.apache.hadoop.fs.Path;

 import org.apache.hadoop.io.LongWritable;

 import org.apache.hadoop.io.Text;

 import org.apache.hadoop.mapred.FileInputFormat;

 import org.apache.hadoop.mapred.FileOutputFormat;

 import org.apache.hadoop.mapred.JobClient;

 import org.apache.hadoop.mapred.JobConf;

 import org.apache.hadoop.mapred.MapReduceBase;

 import org.apache.hadoop.mapred.Mapper;

 import org.apache.hadoop.mapred.OutputCollector;

 import org.apache.hadoop.mapred.Reducer;

 import org.apache.hadoop.mapred.Reporter;

 import org.apache.hadoop.mapred.TextInputFormat;

 import org.apache.hadoop.mapred.TextOutputFormat;

 import org.apache.hadoop.mapred.lib.HashPartitioner;

 /**

  * hadoop版本1.x的包一般是mapreduce

  * hadoop版本0.x的包一般是mapred

  *

  */

 public class OldAPP {

     static final String INPUT_PATH = "hdfs://hadoop:9000/hello";

     static final String OUT_PATH = "hdfs://hadoop:9000/out";

     /**

      * 改动：

      * 1.不再使用Job，而是使用JobConf

      * 2.类的包名不再使用mapreduce，而是使用mapred

      * 3.不再使用job.waitForCompletion(true)提交作业，而是使用JobClient.runJob(job);

      *

      */

     public static void main(String[] args) throws Exception {

         Configuration conf = new Configuration();

         final FileSystem fileSystem = FileSystem.get(new URI(INPUT_PATH), conf);

         final Path outPath = new Path(OUT_PATH);

         if(fileSystem.exists(outPath)){

             fileSystem.delete(outPath, true);

         }

         final JobConf job = new JobConf(conf , WordCountApp.class);

         FileInputFormat.setInputPaths(job, INPUT_PATH);//1.1指定读取的文件位于哪里

         job.setMapperClass(MyMapper.class);//1.2 指定自定义的map类

         job.setMapOutputKeyClass(Text.class);//map输出的<k,v>类型。如果<k3,v3>的类型与<k2,v2>类型一致，则可以省略

         job.setMapOutputValueClass(LongWritable.class);

         job.setPartitionerClass(HashPartitioner.class);//1.3 分区

         job.setNumReduceTasks(1);//有一个reduce任务运行

         job.setReducerClass(MyReducer.class);//2.2 指定自定义reduce类

         job.setOutputKeyClass(Text.class);//指定reduce的输出类型

         job.setOutputValueClass(LongWritable.class);

         FileOutputFormat.setOutputPath(job, outPath);//2.3 指定写出到哪里

         JobClient.runJob(job);//把job提交给JobTracker运行

     }

     /**

      * 新api:extends Mapper

      * 老api:extends MapRedcueBase implements Mapper

      */

     static class MyMapper extends MapReduceBase implements Mapper<LongWritable, Text, Text, LongWritable>{

         @Override

         public void map(LongWritable k1, Text v1,

                 OutputCollector<Text, LongWritable> collector, Reporter reporter)

                 throws IOException {

             final String[] splited = v1.toString().split("\t");

             for (String word : splited) {

                 collector.collect(new Text(word), new LongWritable(1));

             }

         }

     }

     static class MyReducer extends MapReduceBase implements Reducer<Text, LongWritable, Text, LongWritable>{

         @Override

         public void reduce(Text k2, Iterator<LongWritable> v2s,

                 OutputCollector<Text, LongWritable> collector, Reporter reporter)

                 throws IOException {

             long times = 0L;

             while (v2s.hasNext()) {

                 final long temp = v2s.next().get();

                 times += temp;

             }

             collector.collect(k2, new LongWritable(times));

         }

     }

 }

代码 3.1

Hadoop日记Day15---MapReduce新旧api的比较的更多相关文章

mapreduce新旧api对比
对比:hadoop版本1.x 新版,hadoop版本0.x 旧版 1.新api引用包一般是mapreduce ,旧版api引用的包一般是mapred 2.新api使用Job,旧版api使用JobCon ...
MapReduce简述、工作流程及新旧API对照
什么是MapReduce? 你想数出一摞牌中有多少张黑桃.直观方式是一张一张检查而且数出有多少张是黑桃. MapReduce方法则是: 1. 给在座的全部玩家中分配这摞牌. 2. 让每一个玩家数自己手 ...
Hadoop2.2编程：新旧API的区别
Hadoop最新版本的MapReduce Release 0.20.0的API包括了一个全新的Mapreduce JAVA API,有时候也称为上下文对象. 新的API类型上不兼容以前的API,所以, ...
MultipleOutputs新旧api
package MRNB_V4; import java.io.IOException; import java.util.Iterator; import org.apache.hadoop.con ...
Hadoop日记系列目录
下面是Hadoop日记系列的目录,由于目前时间不是很充裕,以后的更新的速度会变慢,会按照一星期发布一期的原则进行,希望能和大家相互学习.交流. 目录安排 1> Hadoop日记Day1---H ...
Hadoop MapReduce例子-新版API多表连接Join之模仿订单配货
文章为作者原创,未经许可,禁止转载. -Sun Yat-sen University 冯兴伟一. 项目简介: 电子商务的发展以及电商平台的多样化,类似于京东和天猫这种拥有过亿用户的在线购 ...
Hadoop生态圈-Kafka的新API实现生产者-消费者
Hadoop生态圈-Kafka的新API实现生产者-消费者作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任.
Hadoop生态圈-Kafka的旧API实现生产者-消费者
Hadoop生态圈-Kafka的旧API实现生产者-消费者作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.旧API实现生产者-消费者 1>.开启kafka集群 [yinz ...
hadoop下跑mapreduce程序报错
mapreduce真的是门学问,遇到的问题逼着我把它从MRv1摸索到MRv2,从年前就牵挂在心里,连过年回家的旅途上都是心情凝重,今天终于在eclipse控制台看到了job completed suc ...

随机推荐

Python Django框架笔记（三）：django工作方式简单说明和创建用户界面
(一) 说明简单说明下django的工作方式,并举2个例子. (二) Django工作方式假定我们有下面这些文件 ,这里在前2篇的基础上增加了 templates目录(存放html文件) 和s ...
用例设计之API用例覆盖准则
基本原则本文主要讨论API测试的用例/场景覆盖,基本原则如下: 用户场景闭环(从哪来到哪去) 遍历所有的实现逻辑路径需求点覆盖覆盖维度 API协议(参数&业务场景) 中间件检查异常场景 ...
BigDecimal 工具类
arg1.compareTo(arg2) arg1 > arg2 返回 int 1 arg1 = arg2 返回 int 0 arg1 < arg2 返回 int -1 public cl ...
Java 如何启用 ARM 虚拟机诊断
现象描述如何通过 Java 语言实现在创建 ARM 虚拟机时开启诊断,并配置相关指标. 实现思路调研最高版本的 JAVA SDK(1.1.0)源码发现,SDK 层面并未提供任启动诊断和配置诊断 ...
Oracle EBS OM 创建订单
DECLARE l_header_rec OE_ORDER_PUB.Header_Rec_Type; l_line_tbl OE_ORDER_PUB.Line_Tbl_Type; l_action_r ...
python基础学习11----函数
一.函数的定义 def 函数名(参数列表): 函数体 return语句 return语句不写或后边不加任何对象即为return None 二.函数的参数无参数 def func1(): print( ...
Window10 Linux子系统挂载磁盘
默认情况下, Linux子系统将当前winodws磁盘的盘全部挂载到/mnt/<disk_label>, 但一些新增的盘就需要手动做下了.. 官方参考文档挂载磁盘 -- DrvFs 挂载 ...
Java 中File类的createNewFile()与createTempFile(), delete和deleteOnExit区别
1. Java 中File类的createNewFile()与createTempFile()的区别最近,在看代码时看到了一个方法, File.createTempFile() ,由此联想到File ...
[IDEA_4] IDEA 从 GitHub 上 pull 项目到本地
0. 说明通过参考的链接我们已经知道了怎么安装配置 Git .GitHub ,如何使用 IDEA 将本地项目上传到 GitHub. 现在是学习怎么通过 IDEA 将项目从 GitHub pull ...
Linux parted命令详解
parted常见命令参数 Usage: parted [OPTION]... [DEVICE [COMMAND [PARAMETERS]...]...] Apply COMMANDs with PAR ...

Hadoop日记Day15---MapReduce新旧api的比较

一、自定义Mapper类的不同

二、自定义Reducer类的不同

三、 驱动代码main方法的不同

Hadoop日记Day15---MapReduce新旧api的比较的更多相关文章

随机推荐

热门专题

三、驱动代码main方法的不同