mapreduce设置setMapOutputKeyClass与setMapOutputValueClass原因

一般的mapreduce的wordcount程序如下：

public class WcMapper extends Mapper<LongWritable, Text, Text, LongWritable> {

    @Override

    protected void map(LongWritable key, Text value, Context ctx) throws IOException, InterruptedException {

        String[] words = value.toString().split(" ");

        for (int i = 0; i < words.length; i++) {

            ctx.write(new Text(words[i]), new LongWritable(1L));

        }

    }

}

public class WcReduer extends Reducer<Text, LongWritable, Text, LongWritable> {

    LongWritable count = new LongWritable();

    @Override

    protected void reduce(Text key, Iterable<LongWritable> values, Context ctx) throws IOException, InterruptedException {

        Iterator<LongWritable> itr = values.iterator();

        long sum = 0L;

        while (itr.hasNext()) {

            sum = sum + itr.next().get();

        }

        count.set(sum);

        ctx.write(key, count);

    }

}

驱动作业代码：

public class JobClient {

    public static void main(String[] args) throws Exception {

        Job job = Job.getInstance();

        job.setJarByClass(JobClient.class);

        job.setMapperClass(WcMapper.class);

        job.setReducerClass(WcReduer.class);

        job.setInputFormatClass(TextInputFormat.class);

        job.setOutputFormatClass(TextOutputFormat.class);

        job.setJobName("wordcount");

        FileInputFormat.addInputPath(job, new Path("/daxin/hadoop-mapreduce/words"));

        FileOutputFormat.setOutputPath(job, new Path("/daxin/hadoop-mapreduce/wordcount-result"));

        job.waitForCompletion(true);

    }

}

提交作业会报错：

Error: java.io.IOException: Type mismatch in key from map: expected org.apache.hadoop.io.LongWritable, received org.apache.hadoop.io.Text

	at org.apache.hadoop.mapred.MapTask$MapOutputBuffer.collect(MapTask.java:1072)

	at org.apache.hadoop.mapred.MapTask$NewOutputCollector.write(MapTask.java:715)

	at org.apache.hadoop.mapreduce.task.TaskInputOutputContextImpl.write(TaskInputOutputContextImpl.java:89)

	at org.apache.hadoop.mapreduce.lib.map.WrappedMapper$Context.write(WrappedMapper.java:112)

	at com.daxin.blog.WcMapper.map(WcMapper.java:20)

	at com.daxin.blog.WcMapper.map(WcMapper.java:13)

	at org.apache.hadoop.mapreduce.Mapper.run(Mapper.java:146)

	at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:787)

	at org.apache.hadoop.mapred.MapTask.run(MapTask.java:341)

	at org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:164)

	at java.security.AccessController.doPrivileged(Native Method)

	at javax.security.auth.Subject.doAs(Subject.java:422)

	at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1657)

	at org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:158)

通过异常信息我们可以定位错误在源码中的位置：org.apache.hadoop.mapred.MapTask.MapOutputBuffer#collect，具体关键源码如下:

 public synchronized void collect(K key, V value, final int partition

                                     ) throws IOException {

      reporter.progress();

      if (key.getClass() != keyClass) {

        throw new IOException("Type mismatch in key from map: expected "

                              + keyClass.getName() + ", received "

                              + key.getClass().getName());

      }

      if (value.getClass() != valClass) {

        throw new IOException("Type mismatch in value from map: expected "

                              + valClass.getName() + ", received "

                              + value.getClass().getName());

      }

   .....

}

此处key.getClass可以确定是Text，需要确定keyClass是什么类型。下面就将确定一下keyClass类型，可以发现keyClass赋值源码：

 keyClass = (Class<K>)job.getMapOutputKeyClass();

　getMapOutputKeyClass源码：

  public Class<?> getMapOutputKeyClass() {

    Class<?> retv = getClass(JobContext.MAP_OUTPUT_KEY_CLASS, null, Object.class);

    if (retv == null) {

      retv = getOutputKeyClass();

    }

    return retv;

  }

其中MAP_OUTPUT_KEY_CLASS则是获取map输出的key的类型，由于我们驱动代码没有设置因此此处得到的值为默认值null，接下在调用getOutputKeyClass方法：

  public Class<?> getOutputKeyClass() {

    return getClass(JobContext.OUTPUT_KEY_CLASS,

                    LongWritable.class, Object.class);

  }

 public static final String OUTPUT_KEY_CLASS = "mapreduce.job.output.key.class";

通过获取OUTPUT_KEY_CLASS的类型，OUTPUT_KEY_CLASS表示的是作业的key的输出类型，但是由于我们没有设置因此获取默认值为LongWritable。但是实际上我们的MapTask输出的key为Text，因而报如上类型不匹配错误。同理Map的value也有类似问题。为了解决此问题就需要显式的设置MapTask的Key、Value输出类型。代码如下：

        job.setMapOutputKeyClass(Text.class);

        job.setMapOutputValueClass(LongWritable.class);

最后也可以分析org.apache.hadoop.mapred.ReduceTask#run方法可以得知：当我们不显式设置Map的Key/Value输出时候，默认Map的key类型为LongWritable，Value为Text，获取类型的关键代码:

 Class keyClass = job.getMapOutputKeyClass();

 Class valueClass = job.getMapOutputValueClass();

其实我有一个困惑，因为我们在写Mapper与Reducer任务时候，Mapper与Reducer都是泛型类，由于泛型类的泛型信息可以保留，为什么还要我们显式设置Map的Key、Value输出类型呢？

我个人分析，可能存在错误，如果有错误望各位指正：

虽然泛型类可以保留信息，也可以在运行时获取泛型信息，但是能够得到的信息是一个整体并不是每一个具体的泛型的信息，说的有点模糊，以Mapper为例，Mapper定义如下：

public class WcMapper extends Mapper<LongWritable, Text, Text, LongWritable> {

    @Override

    protected void map(LongWritable key, Text value, Context ctx) throws IOException, InterruptedException {

     //......

    }

}

当我们获取该泛型信息时候只能获取到：

org.apache.hadoop.mapreduce.Mapper<org.apache.hadoop.io.LongWritable, org.apache.hadoop.io.Text, org.apache.hadoop.io.Text, org.apache.hadoop.io.LongWritable>

　而不是获取到四个泛型组成的数组，个人觉着可能mapreduce处于此考虑所以要求显示设置输出的类型信息(此处需要具体类型信息的目的是为了序列化)。（当然如果有人说通过解析过去四个泛型信息，这样的确可以，但是这样实现的话代码是不是不太优雅？）

mapreduce设置setMapOutputKeyClass与setMapOutputValueClass原因的更多相关文章

C++构造函数/析构函数设置成private的原因
C++构造函数/析构函数设置成private的原因标签(空格分隔): c/c++ 将构造函数,析构函数声明为私有和保护的,那么对象如何创建? 已经不能从外部调用构造函数了,但是对象必须被构造,应该 ...
关于C# Winform DataGridView 设置DefaultCellStyle无效的原因与解决方案
上周在开发Winform 项目中,我曾遇到一个看似简单,但一直都没有解决的问题,那就是:设置winform DataGridView控件的行DefaultCellStyle,但却没有任何变化,我也曾求 ...
PHPStorm+XDebug进行调试图文教程以及解析wamp的php.ini设置不生效的原因
这篇文章主要为大家详细介绍了PHPStorm+XDebug进行调试图文教程,内容很丰富,具有一定的参考价值,感兴趣的小伙伴们可以参考一下笔者的开发环境如下:Windows8.1+Apache+P ...
重新绑定ItemsSource先设置ItemsSource = null;的原因
即报错信息为:在使用 ItemsSource 之前,项集合必须为空. 原因:Items和ItemSource,只能有一个生效,想用其中一个,另一个必须是空. 重新绑定ItemSource,虽然 ...
（转）mysql 无法设置外键的原因总结
在Mysql中创建外键时,经常会遇到问题而失败,这是因为Mysql中还有很多细节需要我们去留意,我自己总结并查阅资料后列出了以下几种常见原因. 1. 两个字段的类型或者大小不严格匹配.例如,如果一个 ...
hbase运行mapreduce设置及基本数据加载方法
hbase与mapreduce集成后,运行mapreduce程序,同时需要mapreduce jar和hbase jar文件的支持,这时我们需要通过特殊设置使任务可以同时读取到hadoop jar和h ...
DIV设置overflow无效的原因
因为项目需求需要在一个div中添加多个checked 添加的时候使用了 <label><input type="checkbox" value="123 ...
解析wamp的php.ini设置不生效的原因
你是否有过这样的经历,当你打开wamp的php.ini,并进行参数修改之后.再回到命令去运行你的php脚本,却发现你的设置居然不生效? 如果有这样的情况,那你得先了解php的两种运行运行环境,一个在命 ...
ListView设置setFooterDividersEnabled无效的原因
参考文章:http://gundumw100.iteye.com/blog/1169065 我的情况: 高度设置为了wrap_content, 且外边有一个FrameLayout(只包含了listvi ...

随机推荐

MVC架构中，用户的请求简单梳理
MVC架构中,用户的请求分为下面3个步骤: 终端用户发送请求,路由器将请求路由到合适的Controller,Controller是逻辑实体和行为action的集合. Controller将请求映射到特 ...
【原】Solr入门之概念和安装
Apache Solr 是Apache Lucene项目的开源企业搜索平台.其主要功能包括全文检索.命中标示.分面搜索.动态聚类.数据库集成,以及富文本(如Word.PDF)的处理.Solr是高度可扩 ...
Java多线程——之一创建线程的四种方法
1.实现Runnable接口,重载run(),无返回值 package thread; public class ThreadRunnable implements Runnable { public ...
Java面试题阶段汇总
初级面试题 Java面试题-基础篇一 Java面试题-基础篇二 Java面试题-集合框架篇三 Java面试题-基础篇四 Java面试题-基础篇五 Java面试题-javaweb篇六 Java面试题 ...
[转]sqlserver转换为Mysql工具使用
https://files.cnblogs.com/files/miantiaoandrew/mss2sql_v5-3.zip 1.首先下载工具,链接如上 2.解压出来,运行mss2sql.exe 3 ...
js-权威指南学习笔记19.2
1.jQuery动画是异步的,会立刻返回,但动画会在后台执行,可传入函数作为动画完成的回调函数. 2.jQuery动画默认是队列化的. 3.stop()方法接受两个可选的布尔值参数,如果第一个参数是t ...
CUDA(5.5)与MySQL 5.6的rint函数定义冲突引起的VS编译器C2264错误
向CUDA project中添加了如下的包含目录后: C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v5.5\include; ..\inclu ...
Python使用MySQLConnector/Python操作MySQL、MariaDB数据库
使用MySQL Connector/Python操作MySQL.MariaDB数据库 by:授客 QQ:1033553122 因目前MySQLdb并不支持python3.x,而MySQL官方已经提 ...
Android系统执行Java jar程序 -- dalvik运行dex Java工程
本文仅针对纯java工程执行进行诠释,一般在PC平台作为jar包形式存在,在Android平台则以dex包形式存在. Java属于高级程序语言,Java程序需要运行在特定的虚拟机中,虚拟机将Java字 ...
大数据【四】MapReduce（单词计数；二次排序；计数器；join；分布式缓存）
前言: 根据前面的几篇博客学习,现在可以进行MapReduce学习了.本篇博客首先阐述了MapReduce的概念及使用原理,其次直接从五个实验中实践学习(单词计数,二次排序,计数器,join,分 ...

mapreduce设置setMapOutputKeyClass与setMapOutputValueClass原因

mapreduce设置setMapOutputKeyClass与setMapOutputValueClass原因的更多相关文章

随机推荐

热门专题