IDEA配置Hadoop开发环境&编译运行WordCount程序

有关hadoop及java安装配置请见：https://www.cnblogs.com/lxc1910/p/11734477.html

1、新建Java project：

选择合适的jdk，如图所示：

将工程命名为WordCount。

2、添加WordCount类文件：

在src中添加新的Java类文件，类名为WordCount，代码如下：

 import java.io.IOException;

 import java.util.StringTokenizer;

 import org.apache.hadoop.conf.Configuration;

 import org.apache.hadoop.fs.Path;

 import org.apache.hadoop.io.IntWritable;

 import org.apache.hadoop.io.Text;

 import org.apache.hadoop.mapreduce.Job;

 import org.apache.hadoop.mapreduce.Mapper;

 import org.apache.hadoop.mapreduce.Reducer;

 import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

 import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

 import org.apache.hadoop.util.GenericOptionsParser;

 public class WordCount {

     public static class TokenizerMapper //定义Map类实现字符串分解

             extends Mapper<Object, Text, Text, IntWritable>

     {

         private final static IntWritable one = new IntWritable(1);

         private Text word = new Text();

         //实现map()函数

         public void map(Object key, Text value, Context context)

                 throws IOException, InterruptedException

         { //将字符串拆解成单词

             StringTokenizer itr = new StringTokenizer(value.toString());

             while (itr.hasMoreTokens())

             { word.set(itr.nextToken()); //将分解后的一个单词写入word类

                 context.write(word, one); //收集<key, value>

             }

         }

     }

     //定义Reduce类规约同一key的value

     public static class IntSumReducer extends Reducer<Text,IntWritable,Text,IntWritable>

     {

         private IntWritable result = new IntWritable();

         //实现reduce()函数

         public void reduce(Text key, Iterable<IntWritable> values, Context context )

                 throws IOException, InterruptedException

         {

             int sum = 0;

             //遍历迭代values，得到同一key的所有value

             for (IntWritable val : values) { sum += val.get(); }

             result.set(sum);

             //产生输出对<key, value>

             context.write(key, result);

         }

     }

     public static void main(String[] args) throws Exception

     { //为任务设定配置文件

         Configuration conf = new Configuration();

         //命令行参数

         String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();

         if (otherArgs.length != 2)

         { System.err.println("Usage: wordcount <in> <out>");

             System.exit(2);

         }

         Job job = Job.getInstance(conf, "word count");//新建一个用户定义的Job

         job.setJarByClass(WordCount.class); //设置执行任务的jar

         job.setMapperClass(TokenizerMapper.class); //设置Mapper类

         job.setCombinerClass(IntSumReducer.class); //设置Combine类

         job.setReducerClass(IntSumReducer.class); //设置Reducer类

         job.setOutputKeyClass(Text.class); //设置job输出的key

         //设置job输出的value

         job.setOutputValueClass(IntWritable.class);

         //设置输入文件的路径

         FileInputFormat.addInputPath(job, new Path(otherArgs[0]));

         //设置输出文件的路径

         FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));

         //提交任务并等待任务完成

         System.exit(job.waitForCompletion(true) ? 0 : 1);

     }

 }

3、添加依赖库：

点击 File -> Project Structure -> Modules，选择Dependencies，点击加号，添加以下依赖库：

4、编译生成JAR包：

点击 File -> Project Structure ->Artifacts，点击加号->JAR->from modules with dependencies,

Mainclass选择WordCount类：

下面开始编译生成JAR包：

点击 build->build Artifacts->build，完成编译后，会发现多出一个目录output.

5、在hadoop系统中运行JAR包：

我之前在hadoop用户下安装了伪分布式的hadoop系统，因此首先把JAR包复制到hadoop用户目录下。

启动hadoop服务：(在hadoop安装目录的sbin文件夹下)

./start-all.sh

在hdfs下新建test-in文件夹，并放入file1.txt、file2.txt两个文件，

 hadoop fs -mkdir test-in

 hadoop fs -put file1.txt file2.txt test-in/

执行jar包：

 hadoop jar WordCount.jar test-in test-out

因为之前生成JAR包时设置了主类，所以WordCount.jar后面不需要再加WordCount.

另外需要注意运行JAR包之前hdfs中不能有test-out文件夹。

6、查看运行结果

可通过http://localhost:50070/查看hadoop系统状况，

点击Utilities->Browse the file system即可查看hdfs文件系统：

可以看到test-out文件下有输出文件，可通过命令：

 hadoop fs -cat test-out/part-r-

查看文件输出情况：

7、参考

https://blog.csdn.net/chaoping315/article/details/78904970

https://blog.csdn.net/napoay/article/details/68491469

https://blog.csdn.net/ouyang111222/article/details/73105086

IDEA配置Hadoop开发环境&编译运行WordCount程序的更多相关文章

myeclipse配置hadoop开发环境
1.安装Hadoop开发插件 hadoop安装包contrib/目录下有个插件hadoop-0.20.2-eclipse-plugin.jar,拷贝到myeclipse根目录下/dropins目录下. ...
Hadoop_配置Hadoop开发环境（Eclipse）
通常我们可以用Eclipse作为Hadoop程序的开发平台. 1) 下载Eclipse 下载地址:http://www.eclipse.org/downloads/ 根据操作系统类型,选择合适的版本 ...
Eclipse配置Hadoop开发环境
Step 1:选择Hadoop版本对应的Eclipse插件jar包(可自行编译),我的Hadoop版本是hadoop-0.20.2,对应的插件应该是:hadoop-0.20.2-eclipse-plu ...
Eclipse安装Hadoop插件配置Hadoop开发环境
一.编译Hadoop插件首先需要编译Hadoop 插件:hadoop-eclipse-plugin-2.6.0.jar,然后才可以安装使用. 第三方的编译教程:https://github.com/ ...
配置Hadoop开发环境（Eclipse）
参考博文: http://blog.csdn.net/zythy/article/details/17397153 http://www.tuicool.com/articles/AjUZrq 注意事 ...
第五章 MyEclipse配置hadoop开发环境
1.首先要下载相应的hadoop版本的插件,我这里就给2个例子: hadoop-1.2.1插件:http://download.csdn.net/download/hanyongan300/62381 ...
分布式集群环境下运行Wordcount程序
1.分布式环境的Hadoop提交作业方式与本地安装的Hadoop作业提交方式相似,但有两点不同: 1)作业输入输出都存储在HDFS 2)本地Hadoop提交作业时将作业放在本地JVM执行,而分布式集群 ...
（三）配置Hadoop1.2.1+eclipse(Juno版)开发环境，并运行WordCount程序
配置Hadoop1.2.1+eclipse(Juno版)开发环境,并运行WordCount程序一. 需求部分在ubuntu上用Eclipse IDE进行hadoop相关的开发,需要在Eclip ...
在Fedora18上配置个人的Hadoop开发环境
在Fedora18上配置个人的Hadoop开发环境 1. 背景文章中讲述了类似于"personalcondor"的一种"personal hadoop" ...

随机推荐

HTML中关于浮动的简单说明
1.首先,标签之所以有存在等级分类,是因为他们处于标准文档流(块级元素,行内元素,行内块元素)当中. 2.如何脱离标准文档流? 浮动绝对定位固定定位这些可以让一个标签脱离标准文档流,而元素一旦脱 ...
简单实现app使用PC图片
提一个很人性化的需求: 在自己的app里使用PC里的图片. 关键点:传输.怎么把图片从PC导入自己的APP. 因为iOS的封闭性,一般用户不能很方便把图片导入手机相册.笔者稍微想了下,实现功能其实也有 ...
LVS、nginx、Haproxy对比（详细）
目录代理软件负载均衡产品介绍 haproxy 本文档参考 http://www.ha97.com/5646.html 代理软件负载均衡产品介绍市面上的负载均衡产品主要分为两种:硬件产品和软件产 ...
python之分支和循环
Day 1-night 三元操作符语法:a=x if 条件 else y 即:当条件为True时,a的值赋值为x,否则赋值为y eg:small=x if x<y else y <=& ...
禁止html页面返回上一层
两种方式: // 方式一触发返回上一层页面事件,只会重新加载当前页面 window.addEventListener('pageshow', function(e) { if (e.persiste ...
sh make.sh fatal error: opencv2/opencv.hpp: No such file or directory
问题: sh make.sh fatal error: opencv2/opencv.hpp: No such file or directory 解决: sudo apt-get install l ...
How to resolve the 403 error when send POST request from Postman
Root cause: the site refused the connection from the http request origin, by default it is setted as ...
[转载]Java进程物理内存远大于Xmx的问题分析
进程物理内存远大于Xmx的问题分析问题描述最近经常被问到一个问题,”为什么我们系统进程占用的物理内存(Res/Rss)会远远大于设置的Xmx值”,比如Xmx设置1.7G,但是top看到的Res的值 ...
STM32串口接收中断——基于HAL库
写在前面最近需要使用一款STM32L4系列的芯片进行开发,需要学习使用HAL库.在进行串口中断使用的时候遇到了一些小麻烦,写下解决方案供大家参考. 1.UART相关的头文件引用错误由于本人直接使用 ...
008_linuxC++之_类的静态变量和静态函数
(一)看程序 #include <iostream> #include <string.h> #include <unistd.h> using namespace ...

IDEA配置Hadoop开发环境&编译运行WordCount程序

IDEA配置Hadoop开发环境&编译运行WordCount程序的更多相关文章

随机推荐

热门专题