需求

  计算出文件中每个单词的频数。要求输出结果按照单词的字母顺序进行排序。每个单词和其频数占一行,单词和频数之间有间隔。

  比如,输入两个文件,其一内容如下:

  hello world

  hello hadoop

  hello mapreduce

  另一内容如下:

  bye world

  bye hadoop

  bye mapreduce

  对应上面给出的输入样例,其输出样例为:

  bye        3

  hadoop    2

  hello      3

  mapreduce   2

  world     2

方案制定

  对该案例,可设计出如下的MapReduce方案:

  1. Map阶段各节点完成由输入数据到单词切分再到单词搜集的工作

  2. shuffle阶段完成相同单词的聚集再到分发到各个Reduce节点的工作 (shuffle阶段是MapReduce的默认过程)

  3. Reduce阶段负责接收所有单词并计算各自频数

代码示例

 /**
  *  Licensed under the Apache License, Version 2.0 (the "License");
  *  you may not use this file except in compliance with the License.
  *  You may obtain a copy of the License at
  *
  *      http://www.apache.org/licenses/LICENSE-2.0
  *
  *  Unless required by applicable law or agreed to in writing, software
  *  distributed under the License is distributed on an "AS IS" BASIS,
  *  WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
  *  See the License for the specific language governing permissions and
  *  limitations under the License.
  */

 package org.apache.hadoop.examples;

 import java.io.IOException;
 import java.util.StringTokenizer;

 //导入各种Hadoop包
 import org.apache.hadoop.conf.Configuration;
 import org.apache.hadoop.fs.Path;
 import org.apache.hadoop.io.IntWritable;
 import org.apache.hadoop.io.Text;
 import org.apache.hadoop.mapreduce.Job;
 import org.apache.hadoop.mapreduce.Mapper;
 import org.apache.hadoop.mapreduce.Reducer;
 import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
 import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
 import org.apache.hadoop.util.GenericOptionsParser;

 // 主类
 public class WordCount {

     // Mapper类
     public static class TokenizerMapper extends Mapper<Object, Text, Text, IntWritable>{

         // new一个值为1的整数对象
         private final static IntWritable one = new IntWritable(1);
         // new一个空的Text对象
         private Text word = new Text();

         // 实现map函数
         public void map(Object key, Text value, Context context) throws IOException, InterruptedException {

             // 创建value的字符串迭代器
             StringTokenizer itr = new StringTokenizer(value.toString());

             // 对数据进行再次分割并输出map结果。初始格式为<字节偏移量,单词> 目标格式为<单词,频率>
             while (itr.hasMoreTokens()) {
                     word.set(itr.nextToken());
                     context.write(word, one);
             }
         }
     }

     // Reducer类
     public static class IntSumReducer extends Reducer<Text,IntWritable,Text,IntWritable> {

         // new一个值为空的整数对象
         private IntWritable result = new IntWritable();

         // 实现reduce函数
         public void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {

             int sum = 0;
             for (IntWritable val : values) {
                 sum += val.get();
             }

             // 得到本次计算的单词的频数
             result.set(sum);

             // 输出reduce结果
             context.write(key, result);
         }
     }

     // 主函数
     public static void main(String[] args) throws Exception {

         // 获取配置参数
         Configuration conf = new Configuration();
         String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();

         // 检查命令语法
         if (otherArgs.length != 2) {
                 System.err.println("Usage: wordcount <in> <out>");
                 System.exit(2);
         }

         // 定义作业对象
         Job job = new Job(conf, "word count");
         // 注册分布式类
         job.setJarByClass(WordCount.class);
         // 注册Mapper类
         job.setMapperClass(TokenizerMapper.class);
         // 注册合并类
         job.setCombinerClass(IntSumReducer.class);
         // 注册Reducer类
         job.setReducerClass(IntSumReducer.class);
         // 注册输出格式类
         job.setOutputKeyClass(Text.class);
         job.setOutputValueClass(IntWritable.class);
         // 设置输入输出路径
         FileInputFormat.addInputPath(job, new Path(otherArgs[0]));
         FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));

         // 运行程序
         System.exit(job.waitForCompletion(true) ? 0 : 1);
     }
 }

运行方法

  1. 打开Eclipse并启动Hdfs (方法请参考前文)

  2. 新建一个MapReduce工程:”file" -> "new" -> "project",然后选择 "Map/Reduce Project"

  

  3. 设置输入目录及文件

  在项目工程包里面新建一个名为input的目录,里面存放需要处理的输入文件。这里选用2个文件名分别为file01和file02的文件进行测试。文件内容同需求示例。

  

  4. 将输入文件传输入Hdfs

  在终端输入以下命令即可将整个目录传输进Hdfs(input目录下的所有文件将会被送进Hdfs下名为input01的目录里),请根据MapReduce工程包实际路径对如下命令略作修改即可:

 ./bin/hadoop fs -put ../workspace/Hadoop_t1/input/ input01

  5. 在工程包中新建一个WordCount类并将上面的源代码拷贝进去。

  6. 调整项目运行参数:右键项目 -> “Run As" -> ”Run Configurations"

  

  需要添加的就是"Program arguments"下的那些代码。它们其实是作为命令行参数传递进程序的,第一段是输入文件路径;第二段是输出文件路径。

  路径的格式为 "[主机IP地址:hdfs端口] + [输入/输出目录在hdfs中的路径]"。

  可以输入以下命令查看输入目录路径:

 ./bin/hadoop fs -ls

  

  7. 点击"Run"运行程序。

  8. 执行以下命令查看结果:

 ./bin/hadoop fs -cat output01/*

  

  这些主机和Hdfs的文件传递,显示也可以使用Eclipse,更方便容易。在此就不提了。

  

小结

  1. 多多熟练Hadoop平台下MapReduce项目基本创建流程。

  2. WordCount是一个很经典的Hadoop示例,它虽然简单,但具有很大的代表性。

  3. 从某个程度上来说也反映了其设计的初衷,对日志文件的分析。

Eclipse上运行第一个Hadoop实例 - WordCount(单词统计程序)的更多相关文章

  1. 第六篇:Eclipse上运行第一个Hadoop实例 - WordCount(单词统计程序)

    需求 计算出文件中每个单词的频数.要求输出结果按照单词的字母顺序进行排序.每个单词和其频数占一行,单词和频数之间有间隔. 比如,输入两个文件,其一内容如下: hello world hello had ...

  2. hadoop学习---运行第一个hadoop实例

    hadoop环境搭建好后,运行第wordcount示例 1.首先启动hadoop:sbin/start-dfs.sh,sbin/start-yarn.sh(必须能够正常运行)   2.进入到hadoo ...

  3. 第二章 mac上运行第一个appium实例

    一.打开appium客户端工具 1      检查环境是否正常运行: 点击左边第三个图标 这是测试你环境是否都配置成功了 2      执行的过程中,遇到Could not detect Mac OS ...

  4. 在Hadoop1.2.1上运行第一个Hadoop程序FileSystemCat

  5. 运行第一个Hadoop程序,WordCount

    系统: Ubuntu14.04 Hadoop版本: 2.7.2 参照http://www.cnblogs.com/taichu/p/5264185.html中的分享,来学习运行第一个hadoop程序. ...

  6. 在Eclipse上运行Spark(Standalone,Yarn-Client)

    欢迎转载,且请注明出处,在文章页面明显位置给出原文连接. 原文链接:http://www.cnblogs.com/zdfjf/p/5175566.html 我们知道有eclipse的Hadoop插件, ...

  7. 在Hadoop上运行基于RMM中文分词算法的MapReduce程序

    原文:http://xiaoxia.org/2011/12/18/map-reduce-program-of-rmm-word-count-on-hadoop/ 在Hadoop上运行基于RMM中文分词 ...

  8. linux下在eclipse上运行hadoop自带例子wordcount

    启动eclipse:打开windows->open perspective->other->map/reduce 可以看到map/reduce开发视图.设置Hadoop locati ...

  9. 【hadoop】在eclipse上运行WordCount的操作过程

    序:本以为今天花点时间将WordCount例子完全理解到,但高估自己了,更别说我只是在大学选修一学期的java,之后再也没碰过java语言了 总的来说,从宏观上能理解具体的程序思路,但具体到每个代码有 ...

随机推荐

  1. Beaglebone Black – 连接 GY-91 MPU9250+BMP280 九轴传感器(2)

    这次用 SPI.BBB 有两套 SPI 接口可用,两套都是默认 disable,需要用 overlay 方式启用,即: echo BB-SPIDEV0 > /sys/devices/bone_c ...

  2. Unicode 与(UTF-8,UTF-16,UTF-32,UCS-2)

    Unicode是什么? Unicode源于一个很简单的想法:将全世界所有的字符包含在一个集合里,计算机只要支持这一个字符集,就能显示所有的字符,再也不会有乱码了. U+597D = 好 597D 是1 ...

  3. Android Fragment是什么

    Fragment是Activity中用户界面的一个行为或者一个部分.你可以在一个单独的Activity上把多个Fragment组合成一个多区域的UI,并且可以在多个Activity中使用.你可以认为F ...

  4. Server asks us to fall back to SIMPLE auth, but this client is configured to only allow secure connections.

    我是在flume向hdfs 写(sink)数据时遇到的这个错误. Server (是指hdfs) asks us to fall back to SIMPLE auth, but this clien ...

  5. CSS 3 阴影,倒影,渐变

    盒子阴影 box-shadow:盒子的阴影 第一个参数:设置的是阴影的水平偏移量 第二个参数:设置的是阴影的垂直偏移量 第三个参数:设置阴影的模糊程度 第四个参数:设置阴影外延值 第五个参数:阴影的颜 ...

  6. sqlplus无密码登录TNS协议适配器错误

    登录到sqlplus使用无密码登录用户时出现:TNS协议适配器错误 检查自己是否有多个数据库,可能默认登录的数据库服务没有启动,启动即可. 查看当前数据库名  select name from v$d ...

  7. jqGrid表格控件

    一. jqGrid的加载. 1.引用相关头文件 引入CSS: <link type="text/css" rel="stylesheet" href=&q ...

  8. laravel 中 与前端的一些事3 之使用Gulp编译less

    更多关于less的使用方法,参考上一篇scss的使用,两者大同小异

  9. yii2-basic后台管理功能开发之二:创建CRUD增删改查

    昨天实现了后台模板的嵌套,今天我们可以试着创建CRUD模型啦 刚开始的应该都是“套用”,不再打算细说,只把关键的地方指出来. CRUD即数据库增删改查操作.可以理解为yii2为我们做了一个组件,来实现 ...

  10. poj1192 最优连通子集(树形dp)

    题目链接:poj1192 最优连通子集 求一棵无向树的最大子树和..类似于求最大子段和的办法,树形dp. dp[i][0]:以i为根,不包括 i 结点的子树最大权 dp[i][1]:以i为根,包括 i ...