MapReduce 单词统计案例编程

MapReduce
单词统计案例编程

一、在Linux环境安装Eclipse软件

1、解压tar包

下载安装包eclipse-jee-kepler-SR1-linux-gtk-x86_64.tar.gz到/opt/software目录下。

解压到/opt/tools目录下：

[hadoop@bigdata-senior01 tools]$ tar -zxf
/opt/sofeware/eclipse-jee-kepler-SR1-linux-gtk-x86_64.tar.gz -C /opt/tools/

2、创建存放源代码的目录

[hadoop@bigdata-senior01 eclipse]$ sudo
mkdir -p /opt/mysource/workspace

修改mysource的所有者为hadoop用户

[hadoop@bigdata-senior01 opt]$ sudo chown
-R hadoop:hadoop /opt/mysource/

3、启动Eclipse

在XWindow环境中，进入/opt/tools/eclipse目录，执行eclipse打开eclipse界面。

[hadoop@bigdata-senior01 eclipse]$
/opt/tools/eclipse/eclipse

设置Workspace目录为：/opt/mysource/workspace。

二、Hadoop Maven配置

1、安装Apache Maven

(1) 解压Maven

[hadoop@bigdata-senior01
sofeware]$ tar -zxf apache-maven-3.0.5-bin.tar.gz -C /opt/modules/

(2) 配置/etc/profile文件

export MAVEN_HOME="/opt/modules/apache-maven-3.0.5"

export
PATH=$MAVEN_HOME/bin:$PATH

(3) 生效配置文件

[root@bigdata-senior01
sofeware]# source /etc/profile

(4) 确认Maven配置成功

[root@bigdata-senior01
sofeware]# mvn -version

Apache Maven
3.0.5 (r01de14724cdef164cd33c7c8c2fe155faf9602da; 2013-02-19 21:51:28+0800)

Maven home:
/opt/modules/apache-maven-3.0.5

Java version:
1.7.0_67, vendor: Oracle Corporation

Java home:
/opt/modules/jdk1.7.0_67/jre

Default locale:
en_US, platform encoding: UTF-8

OS name:
"linux", version: "2.6.32-504.el6.x86_64", arch:
"amd64", family: "unix"

2、设置Eclipse中设置Maven路径

(1) Preferences对话框左侧选择Maven下的Installations，右侧点击Add，添加一个Maven位置。

(2) 选择自己的maven目录：/opt/modules/apache-maven-3.0.5

在Preferences左侧的Maven下的User Setting中，查看右侧是否提示.m2目录不存在，如果不存在，要手动创建。

4、拷贝maven的settings.xml

[hadoop@bigdata-senior01 ~]$ cp
/opt/modules/apache-maven-3.0.5/conf/settings.xml ~/.m2/

三、创建WordCount程序项目

1、创建一个Maven项目

(1) File菜单中，新建Maven Project。

2、添加Source Folder用来存放配置文件

将来core-site.xml、hdfs-site.xml、yarn-site.xml等配置文件存放在这个目录下。

3、为src/main/resource指定输出路径

4、编辑pom.xml文件

修改pom.xml后保存后，maven会自动去下载依赖包

四、编写MapReduce方法

1、添加一个类WordCountMapReduce

WordCountMapReduce类继承org.apache.hadoop.con类并实现org.apache.hadoop.util接口。

package com.chybinmy.hadoop.mapreduce;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.util.Tool;

public class WordCountMapReduce extends Configuration
implements Tool {

}

2、 Map类

public
static class WordCountMapper extends Mapper<LongWritable, Text, Text, IntWritable> {

    @Override

    public void map(LongWritable key, Text value, Context context)

            throws IOException,
InterruptedException {

        String line = value.toString();

        String[] cols = line.split("\t");

        for (String col : cols) {


context.write(new Text(col),
new IntWritable(1));

        }

    }

    // step 2: Reducer Class

    @Override

    protected void cleanup(Context context) throws IOException,


InterruptedException {

        // TODO

    }

    @Override

    protected void setup(Context context) throws IOException,


InterruptedException {

        // TODO

    }

}

3、 Reduce类

public static class WordCountReduce extends Reducer<Text, IntWritable, Text, IntWritable> {

    @Override

    public void reduce(Text key, Iterable<IntWritable> values,

                       Context context) throws IOException, InterruptedException {

        int sum=0;

        for (IntWritable count :values)

        {

            sum+=count.get();

        }

        context.write(new Text(key),new IntWritable(sum));

    }

  

    @Override

    public void cleanup(Context context) throws IOException,

            InterruptedException {

        // TODO

  

    }

  

    @Override

    public void setup(Context context) throws IOException,

            InterruptedException {

        // TODO

  

    }

}

4、 run方法

public int run(String[] args) throws Exception {

  

    Configuration configuration = this.getConf();

    Job job = Job.getInstance(configuration, this.getClass()

            .getSimpleName());

  

    job.setJarByClass(this.getClass());

    Path inpath = new Path(args[0]);

    FileInputFormat.addInputPath(job, inpath);

  

    // output:

    Path outpath = new Path(args[1]);

    FileOutputFormat.setOutputPath(job, outpath);

  

    // mapper

    job.setMapperClass(WordCountMapper.class);

    job.setMapOutputKeyClass(Text.class);

    job.setMapOutputValueClass(IntWritable.class);

  

    // ================shuffle====================

    // 1.分区

    // job.setPartitionerClass(cls);

  

    // 2.排序

    // job.setSortComparatorClass(cls);

  

    // 3.combiner优化

    // job.setCombinerClass(WordCountCombiner.class);

  

    // 4.compress 压缩

  

    // 5.group分组

    // job.setGroupingComparatorClass(cls);

  

    // ================shuffle====================

  

    // reducer

    job.setReducerClass(WordCountReduce.class);

    job.setOutputKeyClass(Text.class);

    job.setOutputValueClass(IntWritable.class);

  

    //reduce个数可以指定

    //job.setNumReduceTasks(tasks);

  

    // submit job

    boolean isSucces = job.waitForCompletion(true);

    return isSucces ? 0 : 1;

}

5、 main方法

public static void main(String[] args) throws Exception {

    args = new String[] {

            "hdfs://bigdata-senior01.chybinmy.com:8020/wordcountdemo/input/wordcount.input",

            "hdfs://bigdata-senior01.chybinmy.com:8020/wordcountdemo/output1" };

  

    Configuration configuration = new Configuration();

    int status = ToolRunner.run(configuration, new WordCountMapReduce(), args);

    System.exit(status);

}

五、打包JAR，在YARN上运行

1、将打包好的jar包放在

2、运行jar

[hadoop@bigdata-senior01 hadoop-2.5.0]$ bin/yarn jar
/opt/mysource/mapreduce.jar com.chybinmy.hadoop.mapreduce.WordCountMapReduce /wordcountdemo/input/wordcount.input
/wordcountdemo/output3

3、查看结果

[hadoop@bigdata-senior01
hadoop-2.5.0]$ bin/hdfs dfs -text /wordcountdemo/output3/part*

hadoop 3

hbase 1

hive
2

mapreduce
1

spark 2

sqoop 1

storm 1

六、以WordCount为例理解MapReduce并行运行过程

1、流程图

2、执行过程描述

(1) 每个分片数据分配一个map任务，任务内容是用户写的map函数，map函数是尽量运行在数据分片的机器上，这样保证了“数据本地优化”。

(2) map任务的结果是各自排好序的，各个map结果进行再次排序合并后，作为reduce任务的输入。

(3) reduce任务执行reduce函数来处理数据，得到最终结果后，存入HDFS。

(4) 会有多个reduce任务，每个reduce任务的输入都来自于许多map任务，map任务和reduce任务之间是需要传输数据的，占用网络资源，影响效率，为了减少数据传输，可以在map()函数后，添加一个combiner函数来对结果做预处理。

来自为知笔记(Wiz)

附件列表

MapReduce 单词统计案例编程的更多相关文章

2.Storm集群部署及单词统计案例
1.集群部署的基本流程 2.集群部署的基础环境准备 3.Storm集群部署 4.Storm集群的进程及日志熟悉 5.Storm集群的常用操作命令 6.Storm源码下载及目录熟悉 7.Storm 单词 ...
关于MapReduce单词统计的例子:
要统计的文件的文件名为hello hello中的内容如下 hello you hello me 通过MapReduce程序统计出文件中的各个单词出现了几次.(两个单词之间通过tab键进行的分割) im ...
hadoop笔记之MapReduce的应用案例(WordCount单词计数)
MapReduce的应用案例(WordCount单词计数) MapReduce的应用案例(WordCount单词计数) 1. WordCount单词计数作用: 计算文件中出现每个单词的频数输入结果 ...
大数据学习——mapreduce程序单词统计
项目结构 pom.xml文件 <?xml version="1.0" encoding="UTF-8"?> <project xmlns=&q ...
【Cloud Computing】Hadoop环境安装、基本命令及MapReduce字数统计程序
[Cloud Computing]Hadoop环境安装.基本命令及MapReduce字数统计程序 1.虚拟机准备 1.1 模板机器配置 1.1.1 主机配置 IP地址:在学校校园网Wifi下连接下 V ...
2、 Spark Streaming方式从socket中获取数据进行简单单词统计
Spark 1.5.2 Spark Streaming 学习笔记和编程练习 Overview 概述 Spark Streaming is an extension of the core Spark ...
Spark入门（三）--Spark经典的单词统计
spark经典之单词统计准备数据既然要统计单词我们就需要一个包含一定数量的文本,我们这里选择了英文原著<GoneWithTheWind>(<飘>)的文本来做一个数据统计,看 ...
Java实现单词统计
原文链接: https://www.toutiao.com/i6764296608705151496/ 单词统计的是统计一个文件中单词出现的次数,比如下面的数据源其中,最终出现的次数结果应该是下面的 ...
ytu 2002:C语言实验——单词统计（水题）
C语言实验——单词统计 Time Limit: 1 Sec Memory Limit: 64 MBSubmit: 61 Solved: 34[Submit][Status][Web Board] ...

随机推荐

linux 使用fdisk分区扩容
标签:fdisk分区概述我们管理的服务器可能会随着业务量的不断增长造成磁盘空间不足的情况,在这个时候我们就需要增加磁盘空间,本章主要介绍如何使用fdisk分区工具创建磁盘分区和挂载分区,介绍两种情 ...
ubuntu下rhythmbox歌名显示乱码问题解决
问题描述:本人装有双系统,一个是win7,另一个是ubuntu12.04LTS版本,所有的歌曲都在windows磁盘下KuGou目录中,这个时候,使用ubuntu的rhythmbox播放的歌曲的时候, ...
先有 Mac 还是先有银元？
自从开设了这个公众号以后,收到最多的问题是:听了 Mac 君的介绍,我也觉得 Mac 很好,可是穷屌丝一枚,真买不起,怎么破?前几天我在微博上说,读了我的书,就有 Mac 了.居然有读者来问:这是真的 ...
jieba中文分词的.NET版本：jieba.NET
简介平时经常用Python写些小程序.在做文本分析相关的事情时免不了进行中文分词,于是就遇到了用Python实现的结巴中文分词.jieba使用起来非常简单,同时分词的结果也令人印象深刻,有兴趣的可以 ...
学习Cassandra的开源电子书（中英文版）
学习Cassandra的开源电子书(中英文版)发布啦:http://teddymaef.github.io/learncassandra/ 之前发布了英文版,现在包含中文版了. 学习Cassandra ...
Visual Studio Code + live-server编辑和浏览HTML网页
第一步: 安装Visual Studio Code + Node.JS 第二步:通过如下命令行安装live-server npm install -g live-server 第三步:打开Visual ...
UIColor 使用起来的坑
我们一般会用 UIColor 的RGB来生成颜色: [UIColor colorWithRed:220/255 green:220/255 blue:220/255 alpha:1.0];//这样生成 ...
WPF入门教程系列二十一——DataGrid示例(一)
前面我们学习了ListView控件的使用示例,今天我们来学习DataGrid的有关知识.提到DataGrid 不管是Asp.Net中的网页开发还是WinForm应用程序开发都会频繁使用.通过它我们可以 ...
Ucos系统任务间的通信详解
物联网开发中,ucos系统任务间的通信是指,两个任务之间有数据的交互,具体的一起来看看吧. 1)消息邮箱我们还是提供两个任务Task1和Task2,假设我们还是解决刚刚的问题,Task1进行按键扫描 ...
前端MVC框架Backbone 1.1.0源码分析系列
Backbone.js 是一个在JavaScript环境下的模型-视图-控制器 (MVC) 框架.任何接触较大规模项目的开发人员一定会苦恼于各种琐碎的事件回调逻辑.以及金字塔般的代码.而且,在传统的 ...

MapReduce 单词统计案例编程

附件列表

MapReduce 单词统计案例编程的更多相关文章

随机推荐

热门专题