Hadoop基本开发环境搭建（原创，已实践）

软件包：

　　hadoop-2.7.2.tar.gz

　　hadoop-eclipse-plugin-2.7.2.jar

　　hadoop-common-2.7.1-bin.zip

　　eclipse

　 jdk1.8.45

　　hadoop-2.7.2（linux和windows各一份）

　　Linux系统（centos或其它）

　　Hadoop安装环境

准备环境：

　　安装Hadoop，安装步骤参见Hadoop安装章节。

　　安装eclipse。

搭建过程如下：

1. 将hadoop-eclipse-plugin-2.7.2.jar拷贝到eclipse/dropins目录下。

2. 解压hadoop-2.7.2.tar.gz到E盘下。

3. 下载或者编译hadoop-common-2.7.2（由于hadoop-common-2.7.1可以兼容hadoop-common-2.7.2，因此这里使用hadoop-common-2.7.1），如果想编译可参考相关文章。

4. 将hadoop-common-2.7.1下的文件全部拷贝到E:\hadoop-2.7.2\bin下面，hadoop.dll在system32下面也要放一个，否则会报下图的错误：

并配置系统环境变量HADOOP_HOME：

5. 启动eclipse,打开windows->Preferences的Hadoop Map/Reduce中设置安装目录:

6. 打开Windows->Open Perspective中的Map/Reduce，在此perspective下进行hadoop程序开发。

7. 打开Windows->Show View中的Map/Reduce Locations，如下图右键选择New Hadoop location…新建hadoop连接。

9. 新建工程并添加WordCount类：

10. 把log4j.properties和hadoop集群中的core-site.xml加入到classpath中。我的示例工程是maven组织，因此放到src/main/resources目录。

11. log4j.properties文件内容如下：

log4j.rootLogger=debug,stdout,R

log4j.appender.stdout=org.apache.log4j.ConsoleAppender

log4j.appender.stdout.layout=org.apache.log4j.PatternLayout

log4j.appender.stdout.layout.ConversionPattern=%5p - %m%n

log4j.appender.R=org.apache.log4j.RollingFileAppender

log4j.appender.R.File=mapreduce_test.log

log4j.appender.R.MaxFileSize=1MB

log4j.appender.R.MaxBackupIndex=

log4j.appender.R.layout=org.apache.log4j.PatternLayout

log4j.appender.R.layout.ConversionPattern=%p %t %c - %m%n

log4j.logger.com.codefutures=DEBUG

12. 在HDFS上创建目录input

　　hadoop dfs -mkdir input

13. 拷贝本地README.txt到HDFS的input里

　　 hadoop dfs -copyFromLocal /usr/local/hadoop/README.txt input

14. hadoop集群中hdfs-site.xml中要添加下面的配置，否则在eclipse中无法向hdfs中上传文件：

<property>

     <name>dfs.permissions</name>

     <value>false</value>

</property>

15. 若碰到Cannot connect to VM com.sun.jdi.connect.TransportTimeoutException，则关闭防火墙。

16. 书写代码如下：

package com.hadoop.example;

import java.io.IOException;

import java.util.StringTokenizer;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import org.apache.hadoop.util.GenericOptionsParser;

public class WordCount {

    public static class TokenizerMapper extends

            Mapper<Object, Text, Text, IntWritable> {

        private final static IntWritable one = new IntWritable(1);

        private Text word = new Text();

        public void map(Object key, Text value, Context context)

                throws IOException, InterruptedException {

            StringTokenizer itr = new StringTokenizer(value.toString());

            System.out.print("--map: " + value.toString() + "\n");

            while (itr.hasMoreTokens()) {

                word.set(itr.nextToken());

                System.out.print("--map token: " + word.toString() + "\n");

                context.write(word, one);

                System.out.print("--context: " + word.toString() + "," + one.toString() + "\n");

            }

        }

    }

    public static class IntSumReducer extends

            Reducer<Text, IntWritable, Text, IntWritable> {

        private IntWritable result = new IntWritable();

        public void reduce(Text key, Iterable<IntWritable> values,

                Context context) throws IOException, InterruptedException {

            int sum = 0;

            for (IntWritable val : values) {

                sum += val.get();

            }

            result.set(sum);

            context.write(key, result);

            System.out.print("--reduce: " + key.toString() + "," + result.toString() + "\n");

        }

    }

    public static void main(String[] args) throws Exception {

        System.setProperty("hadoop.home.dir", "E:\\hadoop-2.7.2");

        Configuration conf = new Configuration();

        String[] otherArgs = new GenericOptionsParser(conf, args)

                .getRemainingArgs();

        if (otherArgs.length != 2) {

            System.err.println("Usage: wordcount <in> <out>");

            System.exit(2);

        }

        Job job = new Job(conf, "word count");

        job.setJarByClass(WordCount.class);

        job.setMapperClass(TokenizerMapper.class);

        job.setCombinerClass(IntSumReducer.class);

        job.setReducerClass(IntSumReducer.class);

        job.setNumReduceTasks(2);

        job.setOutputKeyClass(Text.class);

        job.setOutputValueClass(IntWritable.class);

        FileInputFormat.addInputPath(job, new Path(otherArgs[0]));

        FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));

        System.exit(job.waitForCompletion(true) ? 0 : 1);

    }

}

17. 点击WordCount.java，右键，点击Run As—>Run Configurations，配置运行参数，即输入和输出文件夹，java application里面如果没有wordcount就先把当前project run--->java applation一下。

　　hdfs://localhost:9000/user/hadoop/input hdfs://localhost:9000/user/hadoop/output

其中的localhost为hadoop集群的域名，也可以直接使用IP,如果使用域名的话需要编辑C:\Windows\System32\drivers\etc\HOSTS，添加IP与域名的映射关系

18. 运行完成后，查看运行结果：

方法1：

hadoop dfs -ls output

可以看到有两个输出结果，_SUCCESS和part-r-00000

执行hadoop dfs -cat output/*

　方法2:

　　展开DFS Locations，如下图所示，双击打开part-r00000查看结果:

Hadoop基本开发环境搭建（原创，已实践）的更多相关文章

eclipse+HBASE开发环境搭建（已实践）
开发准备: jdk1.8.45 hbase-1.2.2(windows下和linux个留一份) hadoop-2.7.2(linux一份) Linux系统(centos或其它) Hadoop安装环境 ...
Hadoop Eclipse开发环境搭建
This document is from my evernote, when I was still at baidu, I have a complete hadoop developme ...
Hadoop项目开发环境搭建（Eclipse\MyEclipse + Maven）
写在前面的话可详细参考,一定得去看 HBase 开发环境搭建(Eclipse\MyEclipse + Maven) Zookeeper项目开发环境搭建(Eclipse\MyEclipse + Mav ...
(转)Hadoop Eclipse开发环境搭建
来源:http://www.cnblogs.com/justinzhang/p/4261851.html This document is from my evernote, when I was s ...
【原创干货】大数据Hadoop/Spark开发环境搭建
已经自学了好几个月的大数据了,第一个月里自己通过看书.看视频.网上查资料也把hadoop(1.x.2.x).spark单机.伪分布式.集群都部署了一遍,但经历短暂的兴奋后,还是觉得不得门而入. 只有深 ...
【hadoop之翊】——windows 7使用eclipse下hadoop应用开发环境搭建
由于一些缘故,这节内容到如今才写.事实上弄hadoop有一段时间了,能够编写一些小程序了,今天来还是来说说环境的搭建.... 说明一下:这篇文章的步骤是接上一篇的hadoop文章的:http://bl ...
ubuntu14.04 Hadoop单机开发环境搭建MapReduce项目
Hadoop官网:http://hadoop.apache.org/ 目前最新的版本是Hadoop 3.0.0-alpha1前提:java 1.6 版本以上首先从官网下载压缩包(hadoop-3.0 ...
hadoop本地开发环境搭建
1:下载hadoop2.7.3并解压 2:配置hadoop2.7.3环境变量 HADOOP_HOME %HADOOP_HOME%\bin 3:下载hadoop-eclipse-plugin插件网址: ...
hadoop 分布式开发环境搭建
一,安装java环境添加java环境变量 vi /etc/profile # add by tank export JAVA_HOME=/data/soft/jdk/jdk1.7.0_71 ex ...

随机推荐

C语言－for循环
for循环是C语言中的循环语句之一,它的一般形式为for(初值,条件表达式,步长){语句};初值通常是一个赋值语句, 它用来给循环控制变量赋初值: 条件表达式是一个关系表达式, 它决定什么时候退出循环 ...
tap是什么意思
分光是数据通过光纤传输:分路是数据通过网线传输.粗浅的说,Tap的概念类似于“三通”的意思,即原来的流量正常通行,同时分一股出来供监测设备分析使用. 其实这只是最简单的Tap的概念,目前的技术发展已经 ...
Django中的许可（Permissions）和用户组（Group）
Reference: http://www.cnblogs.com/esperyong/archive/2012/12/20/2826690.html 接着上面的3篇讨论文章,我们阐述了Django中 ...
Oracle数据库和实例的区别
一般Oracle数据库(Oracle Database)可以分为两部分,即实例(Instance)和数据库(Database). 实例:是一个非固定的.基于内存的基本进程与内存结构.当服务器关闭后,实 ...
C#键盘事件处理(来源网上)
C#键盘事件处理如果你希望用户按F1弹出chm帮助,代码如下: private void FrmMain_Load(object sender, EventArgs e) { this.KeyPre ...
delphi字符串操作函数一览
首部 function SameText(const S1, S2: string): Boolean; $[SysUtils.pas 功能返回两个字符串是否相等说明不区分大小写参考 < ...
endnote 使用方法
选择需要的期刊格式,复制到收藏夹. 下载安装插件. 鼠标放在需要插入引用的地方. 关键词搜索文献,记得在这之前要把需要的文献保存至endnote online.然后insert就行了.初次安装可能会有 ...
GCD教程（一）：基本概念
在网上看到关于GCD的一个很不错的教程,这里做一下转载原帖地址:http://www.dreamingwish.com/dream-2012/of-of-of-of-gcd-introduced-1 ...
App Store Review Guideline(带翻译)
1. Terms and conditions(法律与条款) 1.1 As a developer of applications for the App Store you are bound b ...
HttpURLConnection从网上获取Json数据并解析详解
HttpURLConnection从网上获取Json数据并解析 1.HttpURLConnection请求数据的步骤 (1)构造一个URL接口地址: URL url = new URL("h ...

Hadoop基本开发环境搭建（原创，已实践）

Hadoop基本开发环境搭建（原创，已实践）的更多相关文章

随机推荐

热门专题