目的：

学习Hadoop mapreduce 开发环境eclipse windows下的搭建

环境：

Winows 7 64 eclipse 直接连接hadoop运行的环境已经搭建好,结果输出到eclipse

Hadoop2.6.4环境

说明:

这种方式的mapreduce不是在集群上跑。8080web查询不到。

程序是把hdfs上的数据下载到windows本地，执行程序，再将输出结果上传到hdfs。

[遗留：待解决]

1.新建项目

1.1 新建项目、导入hadoop开发包

详细参考

[0007] windows 下 eclipse 开发 hdfs程序样例 1 新建项目

1.2 可选，如果后续执行报错，回头执行这一步

将hadoop下的一个源码包导入，参考 [0008] Y.2.1.b步骤 ,如果还有其他问题参考[0008]整个搭建过程涉及的设置。

2 新建wordcount类

代码如下

 package hdfs;

 import java.io.IOException;

 import java.util.*;

 import org.apache.hadoop.fs.Path;

 import org.apache.hadoop.conf.*;

 import org.apache.hadoop.io.*;

 import org.apache.hadoop.mapreduce.*;

 import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

 import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;

 import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

 import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;

 /**

  * 描述：WordCount explains by xxm

  * @author xxm

  */

 public class WordCount {

  /**

  * Map类：自己定义map方法

  */

  public static class Map extends Mapper<LongWritable, Text, Text, IntWritable> {

     /**

     * LongWritable, IntWritable, Text 均是 Hadoop 中实现的用于封装 Java 数据类型的类

     * 都能够被串行化从而便于在分布式环境中进行数据交换，可以将它们分别视为long,int,String 的替代品。

     */

     private final static IntWritable one = new IntWritable(1);

     private Text word = new Text();

     /**

     * Mapper类中的map方法：

     * protected void map(KEYIN key, VALUEIN value, Context context)

     * 映射一个单个的输入k/v对到一个中间的k/v对

     * Context类：收集Mapper输出的<k,v>对。

     */

     public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

         String line = value.toString();

         StringTokenizer tokenizer = new StringTokenizer(line);

         while (tokenizer.hasMoreTokens()) {

             word.set(tokenizer.nextToken());

             context.write(word, one);

         }

     }

  } 

  /**

  * Reduce类：自己定义reduce方法

  */

  public static class Reduce extends Reducer<Text, IntWritable, Text, IntWritable> {

     /**

     * Reducer类中的reduce方法：

     * protected void reduce(KEYIN key, Interable<VALUEIN> value, Context context)

     * 映射一个单个的输入k/v对到一个中间的k/v对

     * Context类：收集Reducer输出的<k,v>对。

     */

     public void reduce(Text key, Iterable<IntWritable> values, Context context)

       throws IOException, InterruptedException {

         int sum = 0;

         for (IntWritable val : values) {

             sum += val.get();

         }

         context.write(key, new IntWritable(sum));

     }

  }

  /**

  * main主函数

  */

  public static void main(String[] args) throws Exception {

     Configuration conf = new Configuration();//创建一个配置对象，用来实现所有配置

 //    conf.set("fs.defaultFS", "hdfs://ssmaster:9000/");

     Job job = new Job(conf, "wordcount");//新建一个job，并定义名称

     job.setOutputKeyClass(Text.class);//为job的输出数据设置Key类

     job.setOutputValueClass(IntWritable.class);//为job输出设置value类

     job.setMapperClass(Map.class); //为job设置Mapper类

     job.setReducerClass(Reduce.class);//为job设置Reduce类

     job.setJarByClass(WordCount.class);

     job.setInputFormatClass(TextInputFormat.class);//为map-reduce任务设置InputFormat实现类

     job.setOutputFormatClass(TextOutputFormat.class);//为map-reduce任务设置OutputFormat实现类

     FileInputFormat.addInputPath(job, new Path(args[0]));//为map-reduce job设置输入路径

     FileOutputFormat.setOutputPath(job, new Path(args[1]));//为map-reduce job设置输出路径

     job.waitForCompletion(true); //运行一个job，并等待其结束

  }

 }

3 执行

eclipse指定输入输出，执行，可以参考[0008] 4.3,4.4执行过程

hdfs://ssmaster:9000/input
hdfs://ssmaster:9000/output

正常控制台的输出结果，和在linux上 hadoop jar执行的输出结果一致。

其他:

可以在eclipse中直接导出成jar，指定main入口，上传到hadoop linux服务器上,执行hadoop jar xxxx.jar /input /output

总结：

最好的eclipse开发调试方式。没问题了就打包导出、上传到真实服务器。

[b0012] Hadoop 版hello word mapreduce wordcount 运行(二)的更多相关文章

[b0013] Hadoop 版hello word mapreduce wordcount 运行(三)
目的: 不用任何IDE,直接在linux 下输入代码.调试执行环境: Linux Ubuntu Hadoop 2.6.4 相关: [b0012] Hadoop 版hello word mapred ...
[b0004] Hadoop 版hello word mapreduce wordcount 运行
目的: 初步感受一下hadoop mapreduce 环境: hadoop 2.6.4 1 准备输入文件 paper.txt 内容一般为英文文章,随便弄点什么进去 hadoop@ssmaster:~$ ...
Hadoop版Helloworld之wordcount运行示例
1.编写一个统计单词数量的java程序,并命名为wordcount.java,代码如下: import java.io.IOException; import java.util.StringToke ...
Hadoop集群WordCount运行详解（转）
原文链接:Hadoop集群(第6期)_WordCount运行详解 1.MapReduce理论简介 1.1 MapReduce编程模型 MapReduce采用"分而治之"的思想,把对 ...
hadoop 2.7.3本地环境运行官方wordcount
hadoop 2.7.3本地环境运行官方wordcount 基本环境: 系统:win7 虚机环境:virtualBox 虚机:centos 7 hadoop版本:2.7.3 本次先以独立模式(本地模式 ...
Hadoop学习历程（四、运行一个真正的MapReduce程序）
上次的程序只是操作文件系统,本次运行一个真正的MapReduce程序. 运行的是官方提供的例子程序wordcount,这个例子类似其他程序的hello world. 1. 首先确认启动的正常:运行 s ...
（三）配置Hadoop1.2.1+eclipse(Juno版)开发环境，并运行WordCount程序
配置Hadoop1.2.1+eclipse(Juno版)开发环境,并运行WordCount程序一. 需求部分在ubuntu上用Eclipse IDE进行hadoop相关的开发,需要在Eclip ...
hadoop笔记之MapReduce的运行流程
MapReduce的运行流程 MapReduce的运行流程基本概念: Job&Task:要完成一个作业(Job),就要分成很多个Task,Task又分为MapTask和ReduceTask ...
Hadoop（六）MapReduce的入门与运行原理
一 MapReduce入门 1.1 MapReduce定义 Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架: Mapreduce核心功能是将用 ...

随机推荐

Linux system v 共享内存
system v 共享内存 #include <sys/types.h> #include <sys/shm.h> int shmget(key_t key, size_t s ...
[日常] 使用TCPDUMP和Ethereal抓包分析HTTP请求中的异常情况
在测试功能的过程中,出现这样一种现象.前端js发起ajax请求后,在浏览器的审查元素网络状态中可以看到status为pending,等15秒以后js会把当前超时的请求取消掉,变成了红色的cancel. ...
CodeForces - 1236B （简单组合数学）
题意有n种物品和m个背包,每种物品有无限个,现将若干个物品放到这些背包中,满足: 1.每个背包里不能出现相同种类的物品(允许有空背包): 2.在所有的m个背包中,每种物品都出现过. 求方案数,对10 ...
AtCoder - 2286 （数论——唯一分解定理）
题意求n!的因子数%1e9+7. 思路由唯一分解定理,一个数可以拆成素数幂之积,即2^a * 3^b *……,n!=2*3*……*n,所以计算每个素因子在这些数中出现的总次数(直接对2~n素因子分 ...
CSS自定义字体的实现，前端实现字体压缩
CSS中使用自定义字体,首先需要下载你需要的字体ttf或者otf文件这里推荐一个网站:http://www.zitixiazai.org/ /********css中********/ @font- ...
Html学习之十三（导航栏的制作）
<!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title> ...
lua 8 字符串
转自:http://www.runoob.com/lua/lua-strings.html 字符串或串(String)是由数字.字母.下划线组成的一串字符. Lua 语言中字符串可以使用以下三种方式来 ...
pwntools出现的一些问题
pwntools用的好好的突然就不能用了总结了一些问题:ImportError:cannot import name ENUM_P_TYPE 解决方法为:将/usr/local/lib/python2 ...
在net Core3.1上基于winform实现依赖注入实例
目录在net Core3.1上基于winform实现依赖注入实例 1.背景 2.依赖注入 2.1依赖注入是什么? 2.1依赖注入的目的 2.2依赖注入带来的好处 2.2.1生命周期的控制 2.2.2 ...
umi+dva+antd新建项目
首先全局安装dva+umiumi:npm install -g umidva:npm install -g dva-cli 通过脚手架创建项目一: mkdir myapp && cd ...

[b0012] Hadoop 版hello word mapreduce wordcount 运行(二)

目的：

环境：

相关：

说明:

1.新建项目

2 新建wordcount类

3 执行

其他:

总结：

[b0012] Hadoop 版hello word mapreduce wordcount 运行(二)的更多相关文章

随机推荐

热门专题