Hadoop学习笔记2 - 第一和第二个Map Reduce程序

转载请标注原链接http://www.cnblogs.com/xczyd/p/8608906.html

在Hdfs学习笔记1 - 使用Java API访问远程hdfs集群中，我们已经可以完成了访问hdfs的配置。

接下来我们试图写一个最简单的map reduce程序。网上一般给的Demo都是统计词频（Word Count），

于是我们也简单先实现一下：

首先准备一个内容大致如下的test.txt文件：

aa

bbb

aaa

ab

ba

bb

bbb

bba

baa

aa

aaa

aa

aab

每行有且仅有一个单词，然后我们的程序需要完成的任务是统计每个词出现的次数。代码如下：

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.DoubleWritable;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.*;

import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;

import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;

import java.io.*;

import java.util.StringTokenizer;

public class MRTest {

    public static class WordCountMap extends Mapper<Object, Text, Text, IntWritable> {

        private Text word = new Text();

        private final static IntWritable one = new IntWritable(1);

        //key: 行号//value: 单词

        @Override

        protected void map(Object key, Text value, Context context) throws IOException, 
　　　　　　  InterruptedException {

            StringTokenizer tokenizer = new StringTokenizer(value.toString());

            while (tokenizer.hasMoreTokens()) {

                String token = tokenizer.nextToken();

                word.set(token);

                context.write(word, one);

            }

        }

    }

    public static class WordCountReduce extends Reducer<Text, IntWritable, Text, 
　　　　　IntWritable> {

        private IntWritable result = new IntWritable();

        //key: 单词

        //values: 在map阶段写入的one的数量

        @Override

        protected void reduce(Text key, Iterable<IntWritable> values, Context context) 
　　　　　　　throws IOException, InterruptedException {

            int sum = 0;

            for (IntWritable value: values) {

                sum += value.get();

            }

            result.set(sum);

            context.write(key, result);

        }

    }

　　 public static void main(String[] args) throws IOException, ClassNotFoundException, 
　　　　　InterruptedException {

        System.setProperty("HADOOP_USER_NAME", "root");

        String hdfsUserName = "root";

        String inputPath = "/jzhang4/test2.txt";

        String outputPath = "/jzhang4/out";

        Configuration conf = new Configuration();

        conf.set("fs.default.name", "hdfs://hd-nn-test-01:9000");

        conf.set("dfs.client.use.datanode.hostname","true");

        FileSystem fs = FileSystem.get(conf);

        fs.delete(new Path(outputPath), true);

        Job job = Job.getInstance(conf);

        job.setJarByClass(MRTest.class);

        job.setJobName("jzhang4_avg_calc");

        job.setMapperClass(WordCountMap.class);

        job.setReducerClass(WordCountReduce.class);

        TextInputFormat.setInputPaths(job, new Path(inputPath));

        TextOutputFormat.setOutputPath(job, new Path(outputPath));

        job.setOutputKeyClass(Text.class);

        job.setOutputValueClass(IntWritable.class);

        while (true) {

            if (job.waitForCompletion(true)) {

                break;

            } else {

                Thread.sleep(1000);

            }

        }

    }

}

首先在map阶段，我们每读到一个word，就往context里面对应的word上添加一个1；

然后再reduce阶段，对于每一个word，再把这些1给累加起来；

main函数中有一些对于job的配置，主要是为了在IDE中运行此map reduce程序，

如果想要打成jar包放到服务器上去运行，或者是想在yarn上执行，需要调整配置，这些内容不在本篇讨论范围之内。

马不停蹄（事实上停了一天|||- -），立刻开始第二个Map Reduce程序。给定如下这么一个文件：

每行有且仅有一个数字。写一个map reduce程序来计算所有数字的平均值。

第一反应当然是照抄一下上面的程序，只是在map阶段往context里写入要统计的数字本身，

然后reduce阶段把这些数字加和再除以数字的数目即可。

但是老板说，这么操作过于naive。于是想到了map reduce中的计数器(Recorders)，利用计数器可以

在reduce阶段什么也不做就得到均值。于是代码如下：

public static class CalculateAvgMap extends Mapper<Object, Text, Text, 
　　IntWritable> {

　　private final static IntWritable one = new IntWritable(1);

　　public enum Recorders {

　　　　ItemCounter,

　　　　ValueCounter

　　}

　　//key: 行号

　　//value: 数字

　　@Override

　　protected void map(Object key, Text value, Context context) throws IOException, 
　　　　InterruptedException {

　　　　StringTokenizer tokenizer = new StringTokenizer(value.toString());

　　　　while (tokenizer.hasMoreTokens()) {

　　　　　　int number = Integer.parseInt(tokenizer.nextToken());

　　　　　　context.getCounter(Recorders.ItemCounter).increment(1);

　　　　　　context.getCounter(Recorders.ValueCounter).increment(number);

　　　　}

　　}

}

public static class CalculateAvgReduce extends Reducer<Text, IntWritable, Text, 
　　IntWritable> {

　　private DoubleWritable result = new DoubleWritable();

　　@Override

　　protected void reduce(Text key, Iterable<IntWritable> values, Context context) 
　　　　throws IOException, InterruptedException {

　　}

}

然后在适当的地方（比如main函数中）获得计数器的值即可：

 public static void main(String[] args) throws IOException, ClassNotFoundException, 
　　　　 InterruptedException {

        System.setProperty("HADOOP_USER_NAME", "root");

        String hdfsUserName = "root";

        String inputPath = "/jzhang4/test2.txt";

        String outputPath = "/jzhang4/out";

        Configuration conf = new Configuration();

        conf.set("fs.default.name", "hdfs://hd-nn-test-01:9000");

        conf.set("dfs.client.use.datanode.hostname","true");

        FileSystem fs = FileSystem.get(conf);

        fs.delete(new Path(outputPath), true);

        Job job = Job.getInstance(conf);

        job.setJarByClass(MRTest.class);

        job.setJobName("jzhang4_avg_calc");

        job.setMapperClass(CalculateAvgMap.class);

        job.setReducerClass(CalculateAvgReduce.class);

        TextInputFormat.setInputPaths(job, new Path(inputPath));

        TextOutputFormat.setOutputPath(job, new Path(outputPath));

        job.setOutputKeyClass(Text.class);

        job.setOutputValueClass(IntWritable.class);

        while (true) {

            if (job.waitForCompletion(true)) {

                break;

            } else {

                Thread.sleep(1000);

            }

        }

        Counters counters = job.getCounters();

        Counter itemCounter = counters.findCounter(
　　　　　　　CalculateAvgMap.Recorders.ItemCounter);

        System.out.println(itemCounter.getName() + "\t" + itemCounter.getValue());

        Counter valueCounter = counters.findCounter(
　　　　　　　CalculateAvgMap.Recorders.ValueCounter);

        System.out.println(valueCounter.getName() + "\t" + valueCounter.getValue());

}

这个实现有一定的问题，就是加合的结果会存在超界的风险。如果想要避免超界，比较合适的做法是利用bitmap的思想，

开32个或者64个Recorder，分别记录每一个bit的count数。当然在enum里面写茫茫多Recorder有点蠢，

在找到更优雅的办法之前，暂时先不写这么丑陋的代码了...

Hadoop学习笔记2 - 第一和第二个Map Reduce程序的更多相关文章

progit 学习笔记-- 1 第一章第二章
* 1 起步** 关于版本控制*** 什么是版本控制?记录文件变化,查阅特定版本,回溯到之前的状态.任何类型的文件进行版本控制.复制整个目录加上备份时间简单混淆无法恢复本地版本控制数据库记 ...
Python学习笔记系列——高阶函数（map/reduce）
一.map #变量可以指向函数,函数的参数能接受变量,那么一个函数就可以接受另一个函数作为参数,这种函数被称之为高阶函数 def add(x,y,f): return f(x)+f(y) print( ...
Hadoop学习笔记(10) ——搭建源码学习环境
Hadoop学习笔记(10) ——搭建源码学习环境上一章中,我们对整个hadoop的目录及源码目录有了一个初步的了解,接下来计划深入学习一下这头神象作品了.但是看代码用什么,难不成gedit?,单步 ...
Hadoop学习笔记(9) ——源码初窥
Hadoop学习笔记(9) ——源码初窥之前我们把Hadoop算是入了门,下载的源码,写了HelloWorld,简要分析了其编程要点,然后也编了个较复杂的示例.接下来其实就有两条路可走了,一条是继续 ...
Stealth视频教程学习笔记（第一章）
Stealth视频教程学习笔记(第一章) 本文是对Unity官方视频教程Stealth的学习笔记.在此之前,本人整理了Stealth视频的英文字幕,并放到了优酷上.本文将分别对各个视频进行学习总结,提 ...
Hadoop学习笔记(5) ——编写HelloWorld(2)
Hadoop学习笔记(5) ——编写HelloWorld(2) 前面我们写了一个Hadoop程序,并让它跑起来了.但想想不对啊,Hadoop不是有两块功能么,DFS和MapReduce.没错,上一节我 ...
Hadoop学习笔记(3)——分布式环境搭建
Hadoop学习笔记(3) ——分布式环境搭建前面,我们已经在单机上把Hadoop运行起来了,但我们知道Hadoop支持分布式的,而它的优点就是在分布上突出的,所以我们得搭个环境模拟一下. 在这里, ...
Hadoop学习笔记(4) ——搭建开发环境及编写Hello World
Hadoop学习笔记(4) ——搭建开发环境及编写Hello World 整个Hadoop是基于Java开发的,所以要开发Hadoop相应的程序就得用JAVA.在linux下开发JAVA还数eclip ...
Hadoop学习笔记之HBase Shell语法练习
Hadoop学习笔记之HBase Shell语法练习作者:hugengyong 下面我们看看HBase Shell的一些基本操作命令,我列出了几个常用的HBase Shell命令,如下: 名称命令 ...

随机推荐

老版本db2这里下
https://www-01.ibm.com/support/docview.wss?uid=swg27007053 db2 10.5.10.1.9.x等下最新FIX版即可
wholesale custom weighted blankets / travel weighted blankets
What is weighted blankets? Weighted blanket named heavy gravity blanket,for child and adult. Help re ...
secureCRT保存屏幕输出内容
1.有时执行一个mysql语句,屏幕打印行过多,需要设置翻动最大行数打开Options Session Options–>Terminal–>Emulation,在Scrollback输 ...
软件151 王楚博 maven的导入
一.maven 包的导入清单如下:  <parent> <groupId>or ...
电脑小白和ta的小白电脑——Git的使用
简单介绍Git的安装和基本指令,不要抱太大希望QAQ 看完这篇博客,最多学会如何向远程库上传和从远程库拉取项目,复杂功能要做中学! (一)Git的安装 1.下载 (1)官网下载地址: https:/ ...
flv文件解析(纯c解析代码)
参考链接: 1. FLV科普12 FLV脚本数据解析-Metadata Tag解析 https://blog.csdn.net/cabbage2008/article/details/50500021 ...
开源代码chat_master分析
团队项目需求心得——慢阻肺疾病管理APP
一.项目介绍: 先上图: 这是我们小组开发项目的系统构成图. 本项目研发面向家庭/社区,对稳定期中慢阻肺患者病情和环境全方位监测.简单病情趋势分析和患者行为干预,并且提供患者与家庭医生和专家沟通渠道的 ...
log4j的简介和使用
一.log4j是什么引用官网的介绍 Log4j is a fast and flexible framework for logging application debugging messages ...
如何用ESP8266/8285做一个WIFI广告机（虚拟WiFi）
准备工作准备一个深圳四博智联科技有限公司的ESP-F 模组.或者四博智联科技的NODEMCU 当我们拿到ESP-F模块后,可以按照以下接线进行测试: 即 VCC.EN 接 3.3v.GPIO15 G ...

Hadoop学习笔记2 - 第一和第二个Map Reduce程序

Hadoop学习笔记2 - 第一和第二个Map Reduce程序的更多相关文章

随机推荐

热门专题