MapReduce程序（一）—

写在前面：WordCount的功能是统计输入文件中每个单词出现的次数。基本解决思路就是将文本内容切分成单词，将其中相同的单词聚集在一起，统计其数量作为该单词的出现次数输出。

1.MapReduce之wordcount的计算模型

1.1 WordCount的Map过程

假设有两个输入文本文件，输入数据经过默认的LineRecordReader被分割成一行行数据，再经由map()方法得到<key, value>对，Map过程如下：

得到map方法输出的< key,value>对后，Mapper会将它们按照key值进行排序，并执行Combine过程，将key值相同的value值累加，得到Mapper的最终输出结果，如图所示：

1.2 WordCount的Reduce过程

Reducer对从Mapper端接收的数据进行排序，之后由reduce()方法进行处理，将相同主键下的所有值相加，得到新的<key, value>对作为最终的输出结果，如图所示：

2. 打包运行WordCount程序

通过Eclipse来编译打包运行自己写的MapReduce程序（基于Hadoop 2.6.0）。

2.1 下载所需的驱动包

下载地址Group: org.apache.hadoop下载对应版本的驱动包：

hadoop-common-2.6.0.jar
hadoop-mapreduce-client-core-2.6.0.jar
hadoop-test-1.2.1.jar

2.2 创建新的工程

使用Eclipse创建名为WordCount的Java Project；
在Project Properties -> Java Build Path -> Libraries -> Add External Jars 添加第一步所下载Jar包, 点击OK；
创建WordCount.java源文件：

import java.io.IOException;

import java.util.StringTokenizer;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class WordCount {

  public static class TokenizerMapper

       extends Mapper<Object, Text, Text, IntWritable>{

    private final static IntWritable one = new IntWritable();

    private Text word = new Text();

    /*

     * LongWritable 为输入的key的类型

     * Text 为输入value的类型

     * Text-IntWritable 为输出key-value键值对的类型

     */

    public void map(Object key, Text value, Context context

                    ) throws IOException, InterruptedException {

      StringTokenizer itr = new StringTokenizer(value.toString());  // 将TextInputFormat生成的键值对转换成字符串类型

      while (itr.hasMoreTokens()) {

        word.set(itr.nextToken());

        context.write(word, one);

      }

    }

  }

  public static class IntSumReducer

       extends Reducer<Text,IntWritable,Text,IntWritable> {

    private IntWritable result = new IntWritable();

    /*

     * Text-IntWritable 来自map的输入key-value键值对的类型

     * Text-IntWritable 输出key-value 单词-词频键值对

     */

    public void reduce(Text key, Iterable<IntWritable> values,

                       Context context

                       ) throws IOException, InterruptedException {

      int sum = ;

      for (IntWritable val : values) {

        sum += val.get();

      }

      result.set(sum);

      context.write(key, result);

    }

  }

  public static void main(String[] args) throws Exception {

    Configuration conf = new Configuration();  // job的配置

    Job job = Job.getInstance(conf, "word count");  // 初始化Job

    job.setJarByClass(WordCount.class);

    job.setMapperClass(TokenizerMapper.class);

    job.setCombinerClass(IntSumReducer.class);

    job.setReducerClass(IntSumReducer.class);

    job.setOutputKeyClass(Text.class);

    job.setOutputValueClass(IntWritable.class);

    FileInputFormat.addInputPath(job, new Path(args[]));  // 设置输入路径

    FileOutputFormat.setOutputPath(job, new Path(args[]));  // 设置输出路径

    System.exit(job.waitForCompletion(true) ?  : );

  }

}

2.3 打包源文件

在Eclipse -> File ->Export -> Java ->JAR file ->next
选中新建的WordCount工程，设置相应的输出路径和文件名（这里的输出路径一定要记下来，后面会用到），FInish
在设置的输出路径处生成了WordCount.jar，至此，打包完毕。

2.4 启动HDFS服务

打开Terminal，进入目录/usr/local/Cellar/hadoop/2.6.0/sbin

$ start-dfs.sh  #启动HDFS

$ jps  #验证是否启动成功

　　1666

　　2503 SecondaryNameNode

　　2920 Jps

　　2317 NameNode

　　2399 DataNode

成功启动服务后, 可以直接在浏览器中输入http://localhost:50070/访问Hadoop页面

2.5 将文件上传到HDFS

进入目录/usr/local/Cellar/hadoop/2.6.0/bin

#在HDFS上创建输入/输出文件夹

$ hdfs dfs -mkdir /user

$ hdfs dfs -mkdir /user/input

$ hdfs dfs -ls /user

#上传本地file中文件到集群的input目录下

$ hdfs dfs -put /Users/&&&&&&&&/Downloads/test* /user/input

#查看上传到HDFS输入文件夹中到文件

$ hadoop fs -ls /user/input

#输出结果

　　-rw-r--r-- 1 &&&&&& supergroup 666 2015-04-06 10:49 /user/input/test01.html

　　-rw-r--r-- 1 &&&&&& supergroup 9708 2015-04-06 14:25 /user/input/test02.html

2.6 运行JAR文件

#在当前文件夹创建一个工作目录

$ mkdir WorkSpace


#下面这句可以不用，只要运行程序时，正确写入jar所在的完整路径即可

#将打包好的Jar复制到当前工作目录下(复制前路径就是你打包Jar时的存储路径)

$ cp /Users/&&&&&/Desktop/WorkCount.jar ./WorkSpace

#运行Jar文件，各字段含义：hadoop是运行命令命令，jar WorkSpace/WordCount.jar指定Jar文件，WordCount指定Jar文件入口类，/user/input指定job的HDFS上得输入文件目录，output指定job的HDFS输出文件目录

$ hadoop jar WorkSpace/WordCount.jar WordCount /user/input /user/output
#这里input和output在同一user目录中，方便管理

显示如下结果，则说明运行成功：

……省略大量代码

File System Counters

FILE: Number of bytes read=2025025

FILE: Number of bytes written=4443318

FILE: Number of read operations=0

FILE: Number of large read operations=0

FILE: Number of write operations=0

HDFS: Number of bytes read=10356334

HDFS: Number of bytes written=616286

HDFS: Number of read operations=25

HDFS: Number of large read operations=0

HDFS: Number of write operations=5

Map-Reduce Framework

Map input records=33907

Map output records=663964

Map output bytes=6687108

Map output materialized bytes=1005779

Input split bytes=216

Combine input records=663964

Combine output records=68147

Reduce input groups=55800

Reduce shuffle bytes=1005779

Reduce input records=68147

Reduce output records=55800

Spilled Records=136294

Shuffled Maps =2

Failed Shuffles=0

Merged Map outputs=2

GC time elapsed (ms)=187

Total committed heap usage (bytes)=1323827200

Shuffle Errors

BAD_ID=0

CONNECTION=0

IO_ERROR=0

WRONG_LENGTH=0

WRONG_MAP=0

WRONG_REDUCE=0

File Input Format Counters

Bytes Read=4054789

File Output Format Counters

Bytes Written=616286

2.7 查看运行结果

$ hdfs dfs -ls /user/output

Found  items

-rw-r--r--    xumengting supergroup           -- : output/_SUCCESS

-rw-r--r--    xumengting supergroup         -- : output/part-r-00000

#查看结果输出文件中的内容
$ hdfs dfs -cat /user/output/part-r-00000

结果文件一般由2部分组成：

_SUCCESS文件：表示MapReduce运行成功。
part-r-00000文件：存放结果，也是默认生成的结果文件

参考文献：

[1]. 【Hadoop基础教程】5、Hadoop之单词计数——http://blog.csdn.net/andie_guo/article/details/44055863

[2]. MapReduce之Wordcount——http://andrewliu.tk/2015/03/29/MapReduce%E4%B9%8BWordCount/#more

[3]. Mac下Hadoop的配置及在Eclipse上编程

MapReduce程序（一）——wordCount的更多相关文章

mapreduce程序编写(WordCount)
折腾了半天.终于编写成功了第一个自己的mapreduce程序,并通过打jar包的方式运行起来了. 运行环境: windows 64bit eclipse 64bit jdk6.0 64bit 一.工程 ...
运行第一个MapReduce程序，WordCount
1.安装Eclipse 安装后如果无法启动重新配置Java路径(如果之前配置了Java) 2.下载安装eclipse的hadoop插件注意版本对应,放到/uer/lib/eclipse/plugin ...
Hadoop学习之路(5)Mapreduce程序完成wordcount
程序使用的测试文本数据: Dear River Dear River Bear Spark Car Dear Car Bear Car Dear Car River Car Spark Spark D ...
MapReduce 程序：WordCount
MapReduce程序——WordCount（Windows_Eclipse + Ubuntu14.04_Hadoop2.9.0）
本文主要参考<Hadoop应用开发技术详解(作者:刘刚)> 一.工作环境 Windows7: Eclipse + JDK1.8.0 Ubuntu14.04:Hadoop2.9.0 二.准备 ...
第一个MapReduce程序——WordCount
通常我们在学习一门语言的时候,写的第一个程序就是Hello World.而在学习Hadoop时,我们要写的第一个程序就是词频统计WordCount程序. 一.MapReduce简介 1.1 MapRe ...
从零开始学习Hadoop--第2章第一个MapReduce程序
1.Hadoop从头说 1.1 Google是一家做搜索的公司做搜索是技术难度很高的活.首先要存储很多的数据,要把全球的大部分网页都抓下来,可想而知存储量有多大.然后,要能快速检索网页,用户输入几个 ...
hadoop下跑mapreduce程序报错
mapreduce真的是门学问,遇到的问题逼着我把它从MRv1摸索到MRv2,从年前就牵挂在心里,连过年回家的旅途上都是心情凝重,今天终于在eclipse控制台看到了job completed suc ...
使用Python实现Hadoop MapReduce程序
转自:使用Python实现Hadoop MapReduce程序英文原文:Writing an Hadoop MapReduce Program in Python 根据上面两篇文章,下面是我在自己的 ...

随机推荐

原生的强大DOM选择器querySelector - querySelector和querySelectorAll
在传统的 JavaScript 开发中,查找 DOM 往往是开发人员遇到的第一个头疼的问题,原生的 JavaScript 所提供的 DOM 选择方法并不多,仅仅局限于通过 tag, name, id ...
sdut2193救基友记3（三维）
http://acm.sdut.edu.cn/sdutoj/problem.php?action=showproblem&problemid=2193 救基友记3 Time Limit: 10 ...
4.keras实现-->生成式深度学习之DeepDream
DeepDream是一种艺术性的图像修改技术,它用到了卷积神经网络学到的表示,DeepDream由Google于2015年发布.这个算法与卷积神经网络过滤器可视化技术几乎相同,都是反向运行一个卷积神经 ...
在Keras模型中one-hot编码,Embedding层,使用预训练的词向量/处理图片
最近看了吴恩达老师的深度学习课程,又看了python深度学习这本书,对深度学习有了大概的了解,但是在实战的时候, 还是会有一些细枝末节没有完全弄懂,这篇文章就用来总结一下用keras实现深度学习算法的 ...
[ps] 灰度和通道基础知识
灰度.灰度值.灰度图像灰度:灰度使用黑色调来表示物体,即用黑色为基准色,不同饱和度的黑色来显示图像.每个灰度对象都具有从0%(白色)到100%(黑色)的亮度值.使用黑白或灰度扫描仪生成的图像通常以灰 ...
java 字节流与字符流的区别详解
字节流与字符流先来看一下流的概念: 在程序中所有的数据都是以流的方式进行传输或保存的,程序需要数据的时候要使用输入流读取数据,而当程序需要将一些数据保存起来的时候,就要使用输出流完成. 程序中的输入 ...
npm的.npmrc文件在哪里？缓存及全局包文件在什么位置？
npm的.npmrc文件在哪里?缓存及全局包文件在什么位置? npm作为node开发过程中的必备工具,长期使用之后,您可能会想:这些全局安装的node包都放在硬盘里面的哪个地方?配置文件.npmr ...
Acrobat 无法在本页面上执行OCR识别
下载的电子书有时不能选中,或作黄色标记,在用acrobat pro作文本识别时,报 Acrobat 无法在本页面上执行OCR识别解决方法参照 http://jingyan.baidu.com/ar ...
【week6】团队贡献分
小组名称:nice! 小组成员:李权于淼杨柳刘芳芳项目内容:约跑app 完成任务: 10% 20% 70% 好于淼李权中刘芳芳杨柳差 1.李权8.4 2.于 ...
uva10905
/* 很好的字符串比较方法很多个字符串组成的数字需要最大然后比较 a和b 是比较a+b 和b+a 的大小 */ #include<cstdio> #include<s ...

MapReduce程序（一）——wordCount

MapReduce程序（一）——wordCount的更多相关文章

随机推荐

热门专题