转载请标注原链接http://www.cnblogs.com/xczyd/p/8608906.html

Hdfs学习笔记1 - 使用Java API访问远程hdfs集群中,我们已经可以完成了访问hdfs的配置。

接下来我们试图写一个最简单的map reduce程序。网上一般给的Demo都是统计词频(Word Count),

于是我们也简单先实现一下:

首先准备一个内容大致如下的test.txt文件:

aa
bbb
aaa
ab
ba
bb
bbb
bba
baa
aa
aaa
aa
aab

每行有且仅有一个单词,然后我们的程序需要完成的任务是统计每个词出现的次数。代码如下:

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.DoubleWritable;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.*;
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat; import java.io.*;
import java.util.StringTokenizer; public class MRTest { public static class WordCountMap extends Mapper<Object, Text, Text, IntWritable> { private Text word = new Text();
private final static IntWritable one = new IntWritable(1); //key: 行号//value: 单词
@Override
protected void map(Object key, Text value, Context context) throws IOException,
       InterruptedException {
StringTokenizer tokenizer = new StringTokenizer(value.toString());
while (tokenizer.hasMoreTokens()) {
String token = tokenizer.nextToken();
word.set(token);
context.write(word, one);
}
}
} public static class WordCountReduce extends Reducer<Text, IntWritable, Text,
     IntWritable> { private IntWritable result = new IntWritable(); //key: 单词
//values: 在map阶段写入的one的数量
@Override
protected void reduce(Text key, Iterable<IntWritable> values, Context context)
       throws IOException, InterruptedException {
int sum = 0;
for (IntWritable value: values) {
sum += value.get();
}
result.set(sum);
context.write(key, result);
}
}    public static void main(String[] args) throws IOException, ClassNotFoundException,
     InterruptedException { System.setProperty("HADOOP_USER_NAME", "root"); String hdfsUserName = "root";
String inputPath = "/jzhang4/test2.txt";
String outputPath = "/jzhang4/out"; Configuration conf = new Configuration(); conf.set("fs.default.name", "hdfs://hd-nn-test-01:9000");
conf.set("dfs.client.use.datanode.hostname","true"); FileSystem fs = FileSystem.get(conf);
fs.delete(new Path(outputPath), true); Job job = Job.getInstance(conf); job.setJarByClass(MRTest.class);
job.setJobName("jzhang4_avg_calc"); job.setMapperClass(WordCountMap.class);
job.setReducerClass(WordCountReduce.class);
TextInputFormat.setInputPaths(job, new Path(inputPath));
TextOutputFormat.setOutputPath(job, new Path(outputPath));
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(IntWritable.class); while (true) {
if (job.waitForCompletion(true)) {
break;
} else {
Thread.sleep(1000);
}
}
}
}

首先在map阶段,我们每读到一个word,就往context里面对应的word上添加一个1;

然后再reduce阶段,对于每一个word,再把这些1给累加起来;

main函数中有一些对于job的配置,主要是为了在IDE中运行此map reduce程序,

如果想要打成jar包放到服务器上去运行,或者是想在yarn上执行,需要调整配置,这些内容不在本篇讨论范围之内。

马不停蹄(事实上停了一天|||- -),立刻开始第二个Map Reduce程序。给定如下这么一个文件:

10
9
8
7
6
5
4
3
2
1
0

每行有且仅有一个数字。写一个map reduce程序来计算所有数字的平均值。

第一反应当然是照抄一下上面的程序,只是在map阶段往context里写入要统计的数字本身,

然后reduce阶段把这些数字加和再除以数字的数目即可。

但是老板说,这么操作过于naive。于是想到了map reduce中的计数器(Recorders),利用计数器可以

在reduce阶段什么也不做就得到均值。于是代码如下:

public static class CalculateAvgMap extends Mapper<Object, Text, Text, 
  IntWritable> {   private final static IntWritable one = new IntWritable(1);   public enum Recorders {
    ItemCounter,
    ValueCounter
  }   //key: 行号
  //value: 数字
  @Override
  protected void map(Object key, Text value, Context context) throws IOException,
    InterruptedException {
    StringTokenizer tokenizer = new StringTokenizer(value.toString());
    while (tokenizer.hasMoreTokens()) {
      int number = Integer.parseInt(tokenizer.nextToken());
      context.getCounter(Recorders.ItemCounter).increment(1);
      context.getCounter(Recorders.ValueCounter).increment(number);
    }
  }
} public static class CalculateAvgReduce extends Reducer<Text, IntWritable, Text,
  IntWritable> {   private DoubleWritable result = new DoubleWritable();   @Override
  protected void reduce(Text key, Iterable<IntWritable> values, Context context)
    throws IOException, InterruptedException {
  }
}

然后在适当的地方(比如main函数中)获得计数器的值即可:

 public static void main(String[] args) throws IOException, ClassNotFoundException, 
     InterruptedException { System.setProperty("HADOOP_USER_NAME", "root"); String hdfsUserName = "root";
String inputPath = "/jzhang4/test2.txt";
String outputPath = "/jzhang4/out"; Configuration conf = new Configuration(); conf.set("fs.default.name", "hdfs://hd-nn-test-01:9000");
conf.set("dfs.client.use.datanode.hostname","true"); FileSystem fs = FileSystem.get(conf);
fs.delete(new Path(outputPath), true); Job job = Job.getInstance(conf); job.setJarByClass(MRTest.class);
job.setJobName("jzhang4_avg_calc"); job.setMapperClass(CalculateAvgMap.class);
job.setReducerClass(CalculateAvgReduce.class);
TextInputFormat.setInputPaths(job, new Path(inputPath));
TextOutputFormat.setOutputPath(job, new Path(outputPath));
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(IntWritable.class);
while (true) {
if (job.waitForCompletion(true)) {
break;
} else {
Thread.sleep(1000);
}
} Counters counters = job.getCounters(); Counter itemCounter = counters.findCounter(
       CalculateAvgMap.Recorders.ItemCounter);

System.out.println(itemCounter.getName() + "\t" + itemCounter.getValue());
Counter valueCounter = counters.findCounter(
       CalculateAvgMap.Recorders.ValueCounter);

System.out.println(valueCounter.getName() + "\t" + valueCounter.getValue());
}

这个实现有一定的问题,就是加合的结果会存在超界的风险。如果想要避免超界,比较合适的做法是利用bitmap的思想,

开32个或者64个Recorder,分别记录每一个bit的count数。当然在enum里面写茫茫多Recorder有点蠢,

在找到更优雅的办法之前,暂时先不写这么丑陋的代码了...

Hadoop学习笔记2 - 第一和第二个Map Reduce程序的更多相关文章

  1. progit 学习笔记-- 1 第一章 第二章

    * 1 起步**  关于版本控制*** 什么是版本控制?记录文件变化,查阅特定版本,回溯到之前的状态.任何类型的文件进行版本控制.复制整个目录 加上备份时间 简单 混淆 无法恢复本地版本控制 数据库记 ...

  2. Python学习笔记系列——高阶函数(map/reduce)

    一.map #变量可以指向函数,函数的参数能接受变量,那么一个函数就可以接受另一个函数作为参数,这种函数被称之为高阶函数 def add(x,y,f): return f(x)+f(y) print( ...

  3. Hadoop学习笔记(10) ——搭建源码学习环境

    Hadoop学习笔记(10) ——搭建源码学习环境 上一章中,我们对整个hadoop的目录及源码目录有了一个初步的了解,接下来计划深入学习一下这头神象作品了.但是看代码用什么,难不成gedit?,单步 ...

  4. Hadoop学习笔记(9) ——源码初窥

    Hadoop学习笔记(9) ——源码初窥 之前我们把Hadoop算是入了门,下载的源码,写了HelloWorld,简要分析了其编程要点,然后也编了个较复杂的示例.接下来其实就有两条路可走了,一条是继续 ...

  5. Stealth视频教程学习笔记(第一章)

    Stealth视频教程学习笔记(第一章) 本文是对Unity官方视频教程Stealth的学习笔记.在此之前,本人整理了Stealth视频的英文字幕,并放到了优酷上.本文将分别对各个视频进行学习总结,提 ...

  6. Hadoop学习笔记(5) ——编写HelloWorld(2)

    Hadoop学习笔记(5) ——编写HelloWorld(2) 前面我们写了一个Hadoop程序,并让它跑起来了.但想想不对啊,Hadoop不是有两块功能么,DFS和MapReduce.没错,上一节我 ...

  7. Hadoop学习笔记(3)——分布式环境搭建

    Hadoop学习笔记(3) ——分布式环境搭建 前面,我们已经在单机上把Hadoop运行起来了,但我们知道Hadoop支持分布式的,而它的优点就是在分布上突出的,所以我们得搭个环境模拟一下. 在这里, ...

  8. Hadoop学习笔记(4) ——搭建开发环境及编写Hello World

    Hadoop学习笔记(4) ——搭建开发环境及编写Hello World 整个Hadoop是基于Java开发的,所以要开发Hadoop相应的程序就得用JAVA.在linux下开发JAVA还数eclip ...

  9. Hadoop学习笔记之HBase Shell语法练习

    Hadoop学习笔记之HBase Shell语法练习 作者:hugengyong 下面我们看看HBase Shell的一些基本操作命令,我列出了几个常用的HBase Shell命令,如下: 名称 命令 ...

随机推荐

  1. 【lintcode】 二分法总结 I

     二分法:通过O(1)的时间,把规模为n的问题变为n/2.T(n) = T(n/2) + O(1) = O(logn). 基本操作:把长度为n的数组,分成前区间和后区间.设置start和end下标.i ...

  2. GD库imagettftext中文乱码的问题

    linux下出现乱码,加上编码转换就可以了. $str = mb_convert_encoding($str, "html-entities", "utf-8" ...

  3. play framework 笔记

    @main("Hello")调用 main.scala.hmtl,页面名称 Hello conf/routes 文件定义了映射规则 参数的传递入口在 controller 的方法中 ...

  4. 在CentOS 7 上设置返回上一级目录的快捷键为 Backspace

    参考这里. 编辑文件: $ vi ~/.config/nautilus/accels 找到这一行:  ; (gtk_accel_path "<Actions>/ShellActi ...

  5. postman安装

    安装包下载下来,解压缩到你喜欢的位置. 打开 Chrome 浏览器的「扩展程序」 点击「加载已解压的扩展程序...」按钮,找到你刚刚下载的安装包的位置,点击确定. 你去看看 Windows 的开始菜单 ...

  6. centos源码安装mysql5.7.25-boost

    首先在CentOS6.5的版本安装mysql 创建安装目录,并解压 安装mysql的依赖包.这里需要用到阿里源,去吧阿里源宕到本机 安装依赖包,gcc.gcc-c++.cmake.ncurses-de ...

  7. Forth 文本解释程序

    body, table{font-family: 微软雅黑; font-size: 13.5pt} table{border-collapse: collapse; border: solid gra ...

  8. 有关@NgModule装饰器巩固

    declarations —— 该应用所拥有的组件. imports —— 导入 BrowserModule 以获取浏览器特有的服务,比如 DOM 渲染.无害化处理和位置(location). pro ...

  9. Linux内核分析--进程创建,执行,切换

    学号:351 原创作品转载请注明出处本实验来源 https://github.com/mengning/linuxkernel/ 实验要求 从整理上理解进程创建.可执行文件的加载和进程执行进程切换,重 ...

  10. JAVA EE 的学习目标

    本学期是大三下学期,是一个很关键的学习期.在这里定下一个短期的目标. 职业发展目标:我的职业目标其实不是计算机方向,我是准备考公.但是,作为第二手专业打算,如果考公务员失败,我根据我的性格来分析我会选 ...