基于Eclipse搭建hadoop开发环境

一、基础环境准备

1、Eclipse 下载地址：http://pan.baidu.com/s/1slArxAP

2、JDK1.8 下载地址：http://pan.baidu.com/s/1i5iNyTZ

二、win10下hadoop开发环境搭建

1、下载hadoop插件：hadoop-eclipse-plugin-2.7.3.jar，插件放在eclipse\dropins目录下。

hadoop-eclipse-plugin-2.7.3.jar 百度云盘下载地址： http://pan.baidu.com/s/1i585KTv

hadoop-eclipse-plugin-2.7.3.jar CSDN下载地址：http://download.csdn.net/detail/chongxin1/9859371

关闭，并重新启动Eclipse。

2、在windows解压hadoop-2.7.3.tar.gz

hadoop-2.7.3.tar.gz 百度云盘下载地址：http://pan.baidu.com/s/1o8c77PS

3、配置Hadoop
Map/Reduce

4、点击show
view -> other… ，在mapreduce tools下选择Map/ReduceLocations

在eclipse右下侧，点击蓝色大象：

添加一个新的HadoopLocation，并配置：

locationname：随意写

Map/Reduce Master ：

host：192.168.168.200 【装hadoop的linux系统的IP地址】

port：9001（core-site.xml）

DFS Master ：

Use M/R Master host:（打勾：单机模式）

User name：windows系统得默认用户

Port:9000 （mapred-site.xml）

这里的Host和Port在Ubuntu中搭建Hadoop环境时已经设置了。在core-site.xml和mapred-site.xml中查看。

5、查看是否连接成功

至此win10下hadoop开发环境搭建完成。

三、运行新建WordCount
项目并运行

1.右击New->Map/Reduce
Project

2.在hdfs输入目录创建需要统计的文本

1）没有输入输出目录卡，先在hdfs上建个文件夹

bin/hadoop dfs -mkdir -p hdfs://192.168.168.200:9000/input
bin/hadoop dfs -mkdir -p hdfs://192.168.168.200:9000/output

2）.把要统计的文本上传到hdfs的输入目录下

bin/hadoop fs -put words.txt /input

words.txt内容为：

HelloHadoop
HelloBigData
HelloSpark
HelloFlume
HelloKafka

3.新建WordCount.java

import java.io.IOException;
import java.util.StringTokenizer;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.NLineInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
/**
* 第一个MapReduce程序
*
* @author sunchen
*
*/
public class WordCount {
public static class TokenizerMapper extends
Mapper<Object, Text, Text, IntWritable> {
private final static IntWritable one = new IntWritable(1);
private Text word = new Text();
public void map(Object key, Text value, Context context)
throws IOException, InterruptedException {
StringTokenizer itr = new StringTokenizer(value.toString());
while (itr.hasMoreTokens()) {
word.set(itr.nextToken());
context.write(word, one);
}
}
}
public static class IntSumReducer extends
Reducer<Text, IntWritable, Text, IntWritable> {
private IntWritable result = new IntWritable();
public void reduce(Text key, Iterable<IntWritable> values,
Context context) throws IOException, InterruptedException {
int sum = 0;
for (IntWritable val : values) {
sum += val.get();
}
result.set(sum);
context.write(key, result);
}
}
public static void main(String[] args) throws Exception {
Configuration conf = new Configuration();
Job job = Job.getInstance(conf, "word count");
job.setJarByClass(WordCount.class);
job.setMapperClass(TokenizerMapper.class);
job.setCombinerClass(IntSumReducer.class);
job.setReducerClass(IntSumReducer.class);
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(IntWritable.class);
job.setInputFormatClass(NLineInputFormat.class);
// 输入文件路径
FileInputFormat.addInputPath(job, new Path(
"hdfs://192.168.168.200:9000/input/words.txt"));
// 输出文件路径
FileOutputFormat.setOutputPath(job, new Path(
"hdfs://192.168.168.200:9000/output/wordcount"));
System.exit(job.waitForCompletion(true) ? 0 : 1);
}
}

4、配置JDK1.8

因为Hadoop-eclipse-plugin-2.7.3.jar是使用JDK1.8编译的，如果不使用JDK1.8，则会出现以下报错：

Java.lang.UnsupportedClassVersionError: WordCount : Unsupported major.minor version 52.0

原因：JDK版本太低，一定要换成JDK1.8。

5、在项目的src下面新建file名为log4j.properties的文件

在项目的src下面新建file名为log4j.properties的文件，内容为：

### 设置日志级别及日志存储器 ###
#log4j.rootLogger=DEBUG, Console
### 设置日志级别及日志存储器 ###
log4j.rootLogger=info,consolePrint,errorFile,logFile
#log4j.rootLogger=DEBUG,consolePrint,errorFile,logFile,Console
### 输出到控制台 ###
log4j.appender.consolePrint.Encoding = UTF-8
log4j.appender.consolePrint = org.apache.log4j.ConsoleAppender
log4j.appender.consolePrint.Target = System.out
log4j.appender.consolePrint.layout = org.apache.log4j.PatternLayout
log4j.appender.consolePrint.layout.ConversionPattern=%d %p [%c] - %m%n
### 输出到日志文件 ###
log4j.appender.logFile.Encoding = UTF-8
log4j.appender.logFile = org.apache.log4j.DailyRollingFileAppender
log4j.appender.logFile.File = D:/RUN_Data/log/dajiangtai_ok.log
log4j.appender.logFile.Append = true
log4j.appender.logFile.Threshold = info
log4j.appender.logFile.layout = org.apache.log4j.PatternLayout
log4j.appender.logFile.layout.ConversionPattern = %-d{yyyy-MM-dd HH:mm:ss} [ %t:%r ] - [ %p ] %m%n
### 保存异常信息到单独文件 ###
log4j.appender.errorFile.Encoding = UTF-8
log4j.appender.errorFile = org.apache.log4j.DailyRollingFileAppender
log4j.appender.errorFile.File = D:/RUN_Data/log/dajiangtai_error.log
log4j.appender.errorFile.Append = true
log4j.appender.errorFile.Threshold = ERROR
log4j.appender.errorFile.layout = org.apache.log4j.PatternLayout
log4j.appender.errorFile.layout.ConversionPattern =%-d{yyyy-MM-dd HH\:mm\:ss} [ %t\:%r ] - [ %p ] %m%n
#Console
log4j.appender.Console=org.apache.log4j.ConsoleAppender
log4j.appender.Console.layout=org.apache.log4j.PatternLayout
log4j.appender.Console.layout.ConversionPattern=%d [%t] %-5p [%c] - %m%n
log4j.logger.java.sql.ResultSet=INFO
log4j.logger.org.apache=INFO
log4j.logger.java.sql.Connection=DEBUG
log4j.logger.java.sql.Statement=DEBUG
log4j.logger.java.sql.PreparedStatement=DEBUG
#log4j.logger.com.dajiangtai.dao=DEBUG,TRACE
log4j.logger.com.dajiangtai.dao.IFollowDao=DEBUG

如图：

没有log4j.properties日志打不出来，会报警告信息：

log4j:WARN No appenders could be found for logger (org.apache.hadoop.metrics2.lib.MutableMetricsFactory).
log4j:WARN Please initialize the log4j system properly.
log4j:WARN See http://logging.apache.org/log4j/1.2/faq.html#noconfig for more info.

6、配置hadoop环境变量

添加环境变量HADOOP_HOME=D:\hadoop-2.7.3
追加环境变量path内容：%HADOOP_HOME%/bin

如果没有生效，重启eclipse；如果还是没有生效，重启电脑。

如果没配置hadoop环境变量，则会出现以下报错：

Could not locate executable null\bin\winutils.exe in the Hadoop binaries.

2017-07-08 15:53:03,783 ERROR [org.apache.hadoop.util.Shell] - Failed to locate the winutils binary in the hadoop binary path
java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.
at org.apache.hadoop.util.Shell.getQualifiedBinPath(Shell.java:379)
at org.apache.hadoop.util.Shell.getWinUtilsPath(Shell.java:394)
at org.apache.hadoop.util.Shell.<clinit>(Shell.java:387)
at org.apache.hadoop.util.StringUtils.<clinit>(StringUtils.java:80)
at org.apache.hadoop.security.SecurityUtil.getAuthenticationMethod(SecurityUtil.java:610)
at org.apache.hadoop.security.UserGroupInformation.initialize(UserGroupInformation.java:273)
at org.apache.hadoop.security.UserGroupInformation.ensureInitialized(UserGroupInformation.java:261)
at org.apache.hadoop.security.UserGroupInformation.loginUserFromSubject(UserGroupInformation.java:791)
at org.apache.hadoop.security.UserGroupInformation.getLoginUser(UserGroupInformation.java:761)
at org.apache.hadoop.security.UserGroupInformation.getCurrentUser(UserGroupInformation.java:634)
at org.apache.hadoop.mapreduce.task.JobContextImpl.<init>(JobContextImpl.java:72)
at org.apache.hadoop.mapreduce.Job.<init>(Job.java:142)
at org.apache.hadoop.mapreduce.Job.getInstance(Job.java:185)
at org.apache.hadoop.mapreduce.Job.getInstance(Job.java:204)
at WordCount.main(WordCount.java:56)

跟代码就去发现是HADOOP_HOME的问题。如果HADOOP_HOME为空，必然fullExeName为null\bin\winutils.exe。解决方法很简单，配置环境变量吧。

7、下载winutils.exe,hadoop.dll拷贝到%HADOOP_HOME%\bin目录

winutils.exe , hadoop.dll github下载地址：https://github.com/SweetInk/hadoop-common-2.7.1-bin

winutils.exe , hadoop.dll 百度云盘下载地址：https://pan.baidu.com/s/1jI3KdX8#list/path=%2F

拷贝winutils.exe , hadoop.dll到%HADOOP_HOME%\bin目录

少了winutils.exe会报以下错误：

java.io.IOException: Could not locate executable D:\hadoop-2.7.3\bin\winutils.exe in the Hadoop binaries.

2017-07-08 16:17:13,272 ERROR [org.apache.hadoop.util.Shell] - Failed to locate the winutils binary in the hadoop binary path
java.io.IOException: Could not locate executable D:\hadoop-2.7.3\bin\winutils.exe in the Hadoop binaries.
at org.apache.hadoop.util.Shell.getQualifiedBinPath(Shell.java:379)
at org.apache.hadoop.util.Shell.getWinUtilsPath(Shell.java:394)
at org.apache.hadoop.util.Shell.<clinit>(Shell.java:387)
at org.apache.hadoop.util.StringUtils.<clinit>(StringUtils.java:80)
at org.apache.hadoop.security.SecurityUtil.getAuthenticationMethod(SecurityUtil.java:610)
at org.apache.hadoop.security.UserGroupInformation.initialize(UserGroupInformation.java:273)
at org.apache.hadoop.security.UserGroupInformation.ensureInitialized(UserGroupInformation.java:261)
at org.apache.hadoop.security.UserGroupInformation.loginUserFromSubject(UserGroupInformation.java:791)
at org.apache.hadoop.security.UserGroupInformation.getLoginUser(UserGroupInformation.java:761)
at org.apache.hadoop.security.UserGroupInformation.getCurrentUser(UserGroupInformation.java:634)
at org.apache.hadoop.mapreduce.task.JobContextImpl.<init>(JobContextImpl.java:72)
at org.apache.hadoop.mapreduce.Job.<init>(Job.java:142)
at org.apache.hadoop.mapreduce.Job.getInstance(Job.java:185)
at org.apache.hadoop.mapreduce.Job.getInstance(Job.java:204)
at WordCount.main(WordCount.java:56)

少了hadoop.dll会报以下错误：

2017-07-08 16:34:27,170 WARN [org.apache.hadoop.util.NativeCodeLoader] - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable

8、点击WordCount.java右击-->Run As-->Run on Hadoop

运行结果：

单词统计结果如下：

至此搭建完毕，666！