Hadoop on Mac with IntelliJ IDEA - 1 解决input path does not exist问题

本文讲述使用IntelliJ IDEA时遇到Hadoop提示input path does not exist（输入路径不存在）的解决过程。

环境：Mac OS X 10.9.5, IntelliJ IDEA 13.1.4, Hadoop 1.2.1

Hadoop放在虚拟机中，宿主机通过SSH连接，IDE和数据文件在宿主机。

这是自学Hadoop的第三天。以前做过点.NET开发，Mac、IntelliJ IDEA、Hadoop、CentOS对我而言，相当陌生。第一份Hadoop代码就遇到了问题。

以下代码摘自《Hadoop In Action》第4章第1份代码。

 public class MyJob extends Configured implements Tool {

     public static class MapClass extends MapReduceBase

             implements Mapper<Text, Text, Text, Text> {

         @Override

         public void map(Text key, Text value, OutputCollector<Text, Text> output, Reporter reporter)

                 throws IOException {

             output.collect(value, key);

         }

     }

     public static class Reduce extends MapReduceBase

             implements Reducer<Text, Text, Text, Text> {

         @Override

         public void reduce(Text key, Iterator<Text> values, OutputCollector<Text, Text> output, Reporter reporter) throws IOException {

             String csv = "";

             while (values.hasNext()) {

                 if (csv.length() > 0) {

                     csv += ", ";

                 }

                 csv += values.next().toString();

             }

             output.collect(key, new Text(csv));

         }

     }

     @Override

     public int run(String[] args) throws Exception {

         Configuration configuration = getConf();

         JobConf job = new JobConf(configuration, MyJob.class);

         Path in = new Path(args[0]);

         Path out = new Path(args[1]);

         FileInputFormat.setInputPaths(job, in);

         FileOutputFormat.setOutputPath(job, out);

         job.setJobName("MyJob");

         job.setMapperClass(MapClass.class);

         job.setReducerClass(Reduce.class);

         job.setInputFormat(KeyValueTextInputFormat.class);

         job.setOutputFormat(TextOutputFormat.class);

         job.setOutputKeyClass(Text.class);

         job.setOutputValueClass(Text.class);

         job.set("key.value.separator.in.input.line", ",");

         JobClient.runJob(job);

         return 0;

     }

     public static void main(String[] args) {

         try {

             int res = ToolRunner.run(new Configuration(), new MyJob(), args);

             System.exit(res);

         } catch (Exception e) {

             e.printStackTrace();

         }

     }

 }

主函数做了异常处理，其余和原书一致。

直接在IDEA中执行代码，数据文件目录和书上不同，故命令行参数和原书略有差别，如下：

/Users/michael/Desktop/Hadoop/HadoopInAction/cite75_99.txt output

IDEA的配置如图

数据文件路径如图

以上配置无拼写错误。然后，我很高兴地按下'Run MyJob.main()' ，准备等结果，继续跟着书走。

悲剧了，IDEA输出input path does not exist。输入路径是/Users/michael/IdeaProjects/Hadoop/Users/michael/Desktop/Hadoop/HadoopInAction/cite75_99.txt，这不是Working directory拼上我给的第一个参数么，怎么回事。

整份代码，就run方法中用了Path，应该是这边的问题。

在FileOutputFormat.setOutputPath(job, out);后面加上System.out.println(FileInputFormat.getInputPaths(job)[0].toUri());发现输入路径真的被合并到工作路径下了。怪不得报错呢（StackOverflow中有人说是我的数据文件没提交到Hadoop才会报这个错误）。

现在，可以判断问题是FileInputFormat.setInputPaths(job, in);导致的。进源码看看它是怎么工作的。

  /**

   * Set the array of {@link Path}s as the list of inputs

   * for the map-reduce job.

   *

   * @param conf Configuration of the job.

   * @param inputPaths the {@link Path}s of the input directories/files

   * for the map-reduce job.

   */

  public static void setInputPaths(JobConf conf, Path... inputPaths) {

    Path path = new Path(conf.getWorkingDirectory(), inputPaths[0]);

    StringBuffer str = new StringBuffer(StringUtils.escapeString(path.toString()));

    for(int i = 1; i < inputPaths.length;i++) {

      str.append(StringUtils.COMMA_STR);

      path = new Path(conf.getWorkingDirectory(), inputPaths[i]);

      str.append(StringUtils.escapeString(path.toString()));

    }

    conf.set("mapred.input.dir", str.toString());

  }

可以看到，源码第一句就是合并conf和inputPaths。既然合并了工作路径，那就把它去掉好了。

在FileInputFormat.setInputPaths(job, in);前保存合并前结果

　　Path workingDirectoryBak = job.getWorkingDirectory();

再设置为根目录

　　job.setWorkingDirectory(new Path("/"));

然后在它后面设置回来

　　job.setWorkingDirectory(workingDirectoryBak);

加上输出，确认操作结果

　　System.out.println(FileInputFormat.getInputPaths(job)[0].toUri());

新代码如下，mac下的输入法不好用，直接中式英语写注释

 public int run(String[] args) throws Exception {

         Configuration configuration = getConf();

         JobConf job = new JobConf(configuration, MyJob.class);

         Path in = new Path(args[0]);

         Path out = new Path(args[1]);

         // backup current directory, namely /Users/michael/IdeaProjects/Hadoop where source located

         Path workingDirectoryBak = job.getWorkingDirectory();

         // set to root dir

         job.setWorkingDirectory(new Path("/"));

         // let it combine root and input path

         FileInputFormat.setInputPaths(job, in);

         // set it back

         job.setWorkingDirectory(workingDirectoryBak);

         // print to confirm

         System.out.println(FileInputFormat.getInputPaths(job)[0].toUri());

         FileOutputFormat.setOutputPath(job, out);

         job.setJobName("MyJob");

         job.setMapperClass(MapClass.class);

         job.setReducerClass(Reduce.class);

         job.setInputFormat(KeyValueTextInputFormat.class);

         job.setOutputFormat(TextOutputFormat.class);

         job.setOutputKeyClass(Text.class);

         job.setOutputValueClass(Text.class);

         job.set("key.value.separator.in.input.line", ",");

         JobClient.runJob(job);

         return 0;

     }

再试一次，正常，将近1分钟执行完，配置差就是这样。

Hadoop on Mac with IntelliJ IDEA - 1 解决input path does not exist问题的更多相关文章

Hadoop on Mac with IntelliJ IDEA - 7 解决failed to report status for 600 seconds. Killing!问题
本文讲述作业在Hadoop 1.2.1完成map后ruduce阶段遇到failed to report status for 600 seconds. Killing!问题的解决过程. 环境:Mac ...
Hadoop on Mac with IntelliJ IDEA - 6 解决KeyValueTextInputFormat读取时只有key值问题
本文讲述使用KeyValueTextInputFormat在Hadoop 0.x正常工作.Hadoop 1.2.1失效的解决过程. 环境:Mac OS X 10.9.5, IntelliJ IDEA ...
Hadoop on Mac with IntelliJ IDEA - 5 解决java heap space问题
本文讲述在CentOS 6.5中提交作业到hadoop 1.2.1于reduce阶段遇到Error: java heap space错误导致作业重新计算的解决过程.解决办法适用Linux.Mac OS ...
Hadoop on Mac with IntelliJ IDEA - 3 解决MRUnit - No applicable class implementing Serialization问题
本文讲述在IntelliJ IDEA中使用MRUnit 1.0.0测试Mapper派生类时因MapDriver.withInput(final K1 key, final V1 val)的key参数被 ...
Hadoop on Mac with IntelliJ IDEA - 2 解决URI错误导致Permission denied
本文讲述在IntelliJ IDEA中使用FileSystem.copyFromLocalFile操作Hadoop时因URI格式有误导致Permission denied的解决过程. 环境:Mac O ...
Hadoop on Mac with IntelliJ IDEA - 9 解决Type mismatch in value from map问题
修改陆喜恒. Hadoop实战(第2版)5.3排序的代码时遇到IO异常. 环境:Mac OS X 10.9.5, IntelliJ IDEA 13.1.5, Hadoop 1.2.1 异常具体信息如下 ...
wordcount报错：org.apache.hadoop.mapreduce.lib.input.InvalidInputException: Input path does not exist:
Exception in thread "main" org.apache.hadoop.mapreduce.lib.input.InvalidInputException: In ...
解决Spark读取Hive分区表出现Input path does not exist的问题
假设这里出错的表为test表. 现象 Hive读取正常,不会报错,Spark读取就会出现: org.apache.hadoop.mapred.InvalidInputException: Input ...
Hadoop问题：Input path does not exist: hdfs://Master:9000/user/hadoop/input
问题描述: org.apache.hadoop.mapreduce.lib.input.InvalidInputException: Input path does not exist: hdfs:/ ...

随机推荐

Windows Azure® 由世纪互联运营发布MySQL Database on Azure正式商用版
我们很高兴宣布MySQL Database on Azure于2015年9月1日在中国地区正式商用.回望过去,从2014年12月对少量用户开放的预览试用,到2015年4月30日对中国用户全面开放的公共 ...
LwIP编译方法以及选项说明
条件编译命令作用说明 IP_SOF_BROADCAST LWIP_IGMP
MOSS 2010:Visual Studio 2010开发体验（14）——列表开发之事件接收器
转:http://boke.25k5.com/kan141919.html 通过前面几篇,我们已经完成了内容类型,列表定义,列表实例g 8h"@的开发.本篇继续讲解列表中的一个重要环节- ...
Storm实战常见问题及解决方案
该文档为实实在在的原创文档,转载请注明: http://blog.sina.com.cn/s/blog_8c243ea30101k0k1.html 类型详细备注该文档是群里几个朋友在storm实 ...
38、FragmentStatePagerAdapter分页
[ ViewPager ] ViewPager 如其名所述,是负责翻页的一个 View.准确说是一个 ViewGroup,包含多个 View 页,在手指横向滑动屏幕时,其负责对 View 进行切换.为 ...
翻译【ElasticSearch Server】第一章：开始使用ElasticSearch集群(1)
我们要做的第一件事是安装ElasticSearch.对于多数应用程序,您开始安装和配置,通常忘记这些步骤的重要性,直到发生了糟糕的事情.这章我们将广泛关注ElasticSearch的这部分.请注意本章 ...
HDU 5750 Dertouzos 简单数学
感悟:这又是zimpha巨出的一场题,然后04成功fst(也就是这题) 实际上还是too young,要努力增加姿势, 分析:直接枚举这些数不好枚举,换一个角度,枚举x*d,也就是d的另一个乘数是多少 ...
Linux基本命令（1）管理文件和目录的命令
Linux管理文件和目录的命令命令功能命令功能 pwd 显示当前目录 ls 查看目录下的内容 cd 改变所在目录 cat 显示文件的内容 grep 在文件中查找某字符 cp 复制文件 touc ...
linux常用命令之--磁盘管理命令
linux的磁盘管理命令 1.查看磁盘空间 df:用于显示磁盘空间的使用情况其命令格式如下: df [-option] 常用参数: -i:使用inodes显示结果 -k:使用KBytes显示结果 - ...
SQL遍历字符串的方法
字符串穿越: 1.创建一个只存递增序列(1…n)的表——Temp,并将它与目标字符串所在的表Src进行笛卡尔运算.(Temp表的记录数要不小于遍历的目标字符串的长度) 2.过滤掉序列值大于串长的行. ...

Hadoop on Mac with IntelliJ IDEA - 1 解决input path does not exist问题

Hadoop on Mac with IntelliJ IDEA - 1 解决input path does not exist问题的更多相关文章

随机推荐

热门专题