这段时间需要学习Hadoop了,以前一直听说Hadoop,但是从来没有研究过,这几天粗略看完了《Hadoop实战》这本书,对Hadoop编程有了大致的了解。接下来就是多看多写了。以Hadoop自带的例子WordCount程序开始,来记录我的Hadoop学习过程。

Hadoop自带例子WordCount.java

  1. /**
  2. * Licensed under the Apache License, Version 2.0 (the "License");
  3. * you may not use this file except in compliance with the License.
  4. * You may obtain a copy of the License at
  5. *
  6. * http://www.apache.org/licenses/LICENSE-2.0
  7. *
  8. * Unless required by applicable law or agreed to in writing, software
  9. * distributed under the License is distributed on an "AS IS" BASIS,
  10. * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
  11. * See the License for the specific language governing permissions and
  12. * limitations under the License.
  13. */
  14.  
  15. package org.apache.hadoop.examples;
  16.  
  17. import java.io.IOException;
  18. import java.util.StringTokenizer;
  19.  
  20. import org.apache.hadoop.conf.Configuration;
  21. import org.apache.hadoop.fs.Path;
  22. import org.apache.hadoop.io.IntWritable;
  23. import org.apache.hadoop.io.Text;
  24. import org.apache.hadoop.mapreduce.Job;
  25. import org.apache.hadoop.mapreduce.Mapper;
  26. import org.apache.hadoop.mapreduce.Reducer;
  27. import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
  28. import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
  29. import org.apache.hadoop.util.GenericOptionsParser;
  30.  
  31. public class WordCount {
  32.  
  33. public static class TokenizerMapper
  34. extends Mapper<Object, Text, Text, IntWritable>{
  35.  
  36. private final static IntWritable one = new IntWritable(1);
  37. private Text word = new Text();
  38.  
  39. public void map(Object key, Text value, Context context
  40. ) throws IOException, InterruptedException {
  41. StringTokenizer itr = new StringTokenizer(value.toString());
  42. while (itr.hasMoreTokens()) {
  43. word.set(itr.nextToken());
  44. context.write(word, one);
  45. }
  46. }
  47. }
  48.  
  49. public static class IntSumReducer
  50. extends Reducer<Text,IntWritable,Text,IntWritable> {
  51. private IntWritable result = new IntWritable();
  52.  
  53. public void reduce(Text key, Iterable<IntWritable> values,
  54. Context context
  55. ) throws IOException, InterruptedException {
  56. int sum = 0;
  57. for (IntWritable val : values) {
  58. sum += val.get();
  59. }
  60. result.set(sum);
  61. context.write(key, result);
  62. }
  63. }
  64.  
  65. public static void main(String[] args) throws Exception {
  66. Configuration conf = new Configuration();
  67. String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();
  68. if (otherArgs.length != 2) {
  69. System.err.println("Usage: wordcount <in> <out>");
  70. System.exit(2);
  71. }
  72. Job job = new Job(conf, "word count");
  73. job.setJarByClass(WordCount.class);
  74. job.setMapperClass(TokenizerMapper.class);
  75. job.setReducerClass(IntSumReducer.class);
  76. job.setOutputKeyClass(Text.class);
  77. job.setOutputValueClass(IntWritable.class);
  78. FileInputFormat.addInputPath(job, new Path(otherArgs[0]));
  79. FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));
  80. System.exit(job.waitForCompletion(true) ? 0 : 1);
  81. }
  82. }
这个程序的功能是对文件中各个单词的数目进行统计。

在Wordount.java中有两个静态内部类TokenizerMapper,IntSumReducer,关于静态内部类,可以参考另一篇文章
Java中的静态内部类。这两个类分别对应与MapReduce中的map和reduce。至于为什么要用静态的内部类,个人理解是这样的:一般一个简单作业(Job)包含了一个map过程和一个reduce过程,Job,Map,Reduce写在一个文件中便于文件的组织。但是,Hadoop内部需要使用反射的方式来实例化客户端的Map和Reduce,所以使用了静态内部类的方式,参考了StackOverflow上的一个帖子:
Do Mappers and Reducers in Hadoop have to be static classes?,如果不许要将Job,Map和Reduce组织在一起,完全可以将这三个类写在三个类文件中。


在程序的main函数中首先实例化一个Configuration,用于加载Hadoop的配置信息,然后就解析给程序传递的参数,这里我们传递了两个字符串参数,经过解析之后保存在有两个元素的数组otherArgs中,其中otherArgs[0]为要进行统计的文件的路径,otherArgs[1]为经过MapReduce计算之后的结果所保存的位置。

  1. Job job = new Job(conf, "word count");

语句实例化一个Job对象,然后就为Job对像指定运行时所需的类

  1. job.setJarByClass(WordCount.class);

表示告诉Hadoop集群,作业从哪个类开始运行,

  1. job.setMapperClass(TokenizerMapper.class);

表示执行哪个类的map方法,我们这里指定的是方法

  1. public void map(Object key, Text value, Context context
  2. ) throws IOException, InterruptedException {
  3. StringTokenizer itr = new StringTokenizer(value.toString());
  4. while (itr.hasMoreTokens()) {
  5. word.set(itr.nextToken());
  6. context.write(word, one);
  7. }
  8. }

这个方法对要进行map的每行数据,使用StringTokenizer类进行分割,分割出来的值在保存到context中进行,从而在reduce中进行单词数量统计。

  1. job.setReducerClass(IntSumReducer.class);

这行语句设置用于进行Reduce的类,告诉Hadoop集群执行哪个reduce函数:

  1. public void reduce(Text key, Iterable<IntWritable> values,
  2. Context context
  3. ) throws IOException, InterruptedException {
  4. int sum = 0;
  5. for (IntWritable val : values) {
  6. sum += val.get();
  7. }
  8. result.set(sum);
  9. context.write(key, result);
  10. }

在这个函数执行之前,Hadoop已经为我们将各个单词的个数大概的归并在一起了,函数的前两个参数是Text 类型和Iterable类型,参数名分别为key和alues,其中在这里key表示在map方法中分割得到的单词,values表示在map阶段统计的单词的数量(由于reduce阶段接收到多个数据结点发送过来的统计结果,所以对应于一个key,可能有多个value,所以将这些value都保存在一迭代器中,然后对迭代器进行遍历,这个过程以后再讨论。),遍历values迭代器,对每个key的数量进行汇总,然后再记录在context中。

  1. job.setOutputKeyClass(Text.class);
  2. job.setOutputValueClass(IntWritable.class);

表示MapReduce执行结束之后,将结果保存在HDFS中时,保存的数据类型。这里将结果的key以Text类型保存,value以IntWritable类型保存。

  1. FileInputFormat.addInputPath(job, new Path(otherArgs[0]));
  2. FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));

分别表示输入和输出的路径。

这个程序相对于Hadoop的例子,我去掉了
  1. job.setCombinerClass(IntSumReducer.class);

这行语句,在Hadoop中,Combiner主要用于提升Hadoop的处理效率,为了集中于理解MapReduce,我去掉了这行代码,待以后讨论提升Hadoop性能时,再学习Combiner。







Hadoop入门实践之从WordCount程序说起的更多相关文章

  1. IDEA配置Hadoop开发环境&编译运行WordCount程序

    有关hadoop及java安装配置请见:https://www.cnblogs.com/lxc1910/p/11734477.html 1.新建Java project: 选择合适的jdk,如图所示: ...

  2. 分布式计算开源框架Hadoop入门实践

    目录(?)[+] Author :岑文初 Email: wenchu.cenwc@alibaba-inc.com msn: cenwenchu_79@hotmail.com blog: http:// ...

  3. 分布式计算开源框架Hadoop入门实践(一)

    在SIP项目设计的过程中,对于它庞大的日志在开始时就考虑使用任务分解的多线程处理模式来分析统计,在我从前写的文章<Tiger Concurrent Practice --日志分析并行分解设计与实 ...

  4. 分布式计算开源框架Hadoop入门实践(二)

    其实参看Hadoop官方文档已经能够很容易配置分布式框架运行环境了,不过这里既然写了就再多写一点,同时有一些细节需要注意的也说明一下,其实也就是这些细节会让人摸索半天.Hadoop可以单机跑,也可以配 ...

  5. 分布式计算开源框架Hadoop入门实践(三)

    Hadoop基本流程 一个图片太大了,只好分割成为两部分.根据流程图来说一下具体一个任务执行的情况. 在分布式环境中客户端创建任务并提交. InputFormat做Map前的预处理,主要负责以下工作: ...

  6. 第1节 MapReduce入门:mapreduce的wordcount程序执行问题

    执行时报错: 19/06/03 23:00:41 INFO Configuration.deprecation: session.id is deprecated. Instead, use dfs. ...

  7. Hadoop入门程序WordCount的执行过程

    首先编写WordCount.java源文件,分别通过map和reduce方法统计文本中每个单词出现的次数,然后按照字母的顺序排列输出, Map过程首先是多个map并行提取多个句子里面的单词然后分别列出 ...

  8. 一个可以跑的Hadoop的WordCount程序

    搭个新环境时总要折腾一下,于是干脆记下来. 程序: package com.my; import java.io.IOException; import java.util.Iterator; imp ...

  9. Hadoop下WordCount程序

    一.前言 在之前我们已经在 CenOS6.5 下搭建好了 Hadoop2.x 的开发环境.既然环境已经搭建好了,那么现在我们就应该来干点正事嘛!比如来一个Hadoop世界的HelloWorld,也就是 ...

随机推荐

  1. iOS FMDB小试了一下

    今天从早上9点,一直在看FMDB,知道中午11:40.我的效率是不是很低下.中间也碰到了几个小bug. 虽然做了一个小demo,但是觉得还比不上在项目中使用中锻炼的多,先暂且一总结. 先下载FMDB的 ...

  2. JavaScript实现dropdownlist选定值后将选定值的key与value填入两个textbox中

    <script language="javascript" type="text/javascript"> var txtText0 = " ...

  3. NSNumber,NSValue和NSData

    我们在编码中,很多时候需要将C里面原生的数据封装成对象,这样可以用NSDictionary或者NSArray来存取访问.尤其是一些做适配的情况下,这种封装是不可避免的.Objective-C提供了不少 ...

  4. 破解Mysql数据库密码

    破解Mysql数据库密码 点我,点我,破解mysql数据库密码:

  5. 呛口大话APP 移动端到底怎么玩

    [上海站]活动概况 时间:2016年04月09日13:30-16:30 地点:上海市黄浦区黄陂北路227号中区广场105室WE+联合办公空间 主办:APICloud.七牛.听云 报名网址:http:/ ...

  6. vs2010 问题 LINK : fatal error LNK1123: 转换到 COFF 期间失败: 文件无效或损坏

    vs2010 问题 LINK : fatal error LNK1123: 转换到 COFF 期间失败: 文件无效或损坏 在安装 VS2010 后,再安装 VS2012 VS2015 等,原来的 .N ...

  7. Java HashMap Demo

    代码: import java.util.HashMap; import java.util.Iterator; import java.util.Set; import java.util.Map. ...

  8. matlab将多条曲线绘制在一起

    figure; hold on; : plot(x(i,:),y(i,:)); end x=:*pi); hold on : y=sin(x+i*pi/)+exp(x/); plot(x,y, -(] ...

  9. D3D标注动态避让

    原来也思考了该如何实现标注动态避让,认为必须得计算字符串所占的大小.如果在屏幕上要计算屏幕象素之类的东西. 今天总算找到了实现方法,在C# WorldWind中的KMLImporter类中有.关键是F ...

  10. RPC、SQL、NFS属于OSI的哪一层

    第一层:物理层 第二层:数据链路层 802.2.802.3ATM.HDLC.FRAME RELAY 第三层:网络层 IP.IPX.ARP.APPLETALK.ICMP 第四层:传输层 TCP.UDP. ...