程序使用的测试文本数据：

Dear River

Dear River Bear Spark

Car Dear Car Bear Car

Dear Car River Car

Spark Spark Dear Spark

1编写主要类

（1）Maper类

首先是自定义的Maper类代码

public class WordCountMap extends Mapper<LongWritable, Text, Text, IntWritable> {

    public void map(LongWritable key, Text value, Context context)

            throws IOException, InterruptedException {

        //fields:代表着文本一行的的数据: dear bear river

        String[] words = value.toString().split("\t");

        for (String word : words) {

            // 每个单词出现１次，作为中间结果输出

            context.write(new Text(word), new IntWritable(1));

        }

    }

}

这个Map类是一个泛型类型，它有四个形参类型，分别指定map()函数的输入键、输入值、输出键和输出值的类型。LongWritable：输入键类型，Text：输入值类型，Text:输出键类型，IntWritable：输出值类型.

String[] words = value.toString().split("\t");,words 的值为Dear River Bear River

输入键key是一个长整数偏移量，用来寻找第一行的数据和下一行的数据，输入值是一行文本Dear River Bear River，输出键是单词Bear ，输出值是整数1。

Hadoop本身提供了一套可优化网络序列化传输的基本类型，而不直接使用Java内嵌的类型。这些类型都在org.apache.hadoop.io包中。这里使用LongWritable类型(相当于Java的Long类型)、Text类型(相当于Java中的String类型)和IntWritable类型(相当于Java的Integer类型)。

map()方法的参数是输入键和输入值。以本程序为例，输入键LongWritable key是一个偏移量，输入值Text value是Dear Car Bear Car ，我们首先将包含有一行输入的Text值转换成Java的String类型，之后使用substring()方法提取我们感兴趣的列。map()方法还提供了Context实例用于输出内容的写入。

（2）Reducer类

public class WordCountReduce extends Reducer<Text, IntWritable, Text, IntWritable> {

    /*

        (River, 1)

        (River, 1)

        (River, 1)

        (Spark , 1)

        (Spark , 1)

        (Spark , 1)

        (Spark , 1)

        key: River

        value: List(1, 1, 1)

        key: Spark

        value: List(1, 1, 1,1)

    */

    public void reduce(Text key, Iterable<IntWritable> values,

                          Context context) throws IOException, InterruptedException {

        int sum = 0;

        for (IntWritable count : values) {

            sum += count.get();

        }

        context.write(key, new IntWritable(sum));// 输出最终结果

    };

}

Reduce任务最初按照分区号从Map端抓取数据为：

(River, 1)

(River, 1)

(River, 1)

(spark, 1)

(Spark , 1)

(Spark , 1)

(Spark , 1)

经过处理后得到的结果为：

key: hello value: List(1, 1, 1)

key: spark value: List(1, 1, 1,1)

所以reduce()函数的形参 Iterable<IntWritable> values 接收到的值为List(1, 1, 1)和List(1, 1, 1,1)

（3）Main函数

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;

public class WordCountMain {

    //若在IDEA中本地执行MR程序，需要将mapred-site.xml中的mapreduce.framework.name值修改成local

    public static void main(String[] args) throws IOException,

            ClassNotFoundException, InterruptedException {

        if (args.length != 2 || args == null) {

            System.out.println("please input Path!");

            System.exit(0);

        }

        //System.setProperty("HADOOP_USER_NAME","hadoop2.7");

        Configuration configuration = new Configuration();

        //configuration.set("mapreduce.job.jar","/home/bruce/project/kkbhdp01/target/com.kaikeba.hadoop-1.0-SNAPSHOT.jar");

        //调用getInstance方法，生成job实例

        Job job = Job.getInstance(configuration, WordCountMain.class.getSimpleName());

        // 打jar包

        job.setJarByClass(WordCountMain.class);

        // 通过job设置输入/输出格式

        // MR的默认输入格式是TextInputFormat，所以下两行可以注释掉

        // job.setInputFormatClass(TextInputFormat.class);

        // job.setOutputFormatClass(TextOutputFormat.class);

        // 设置输入/输出路径

        FileInputFormat.setInputPaths(job, new Path(args[0]));

        FileOutputFormat.setOutputPath(job, new Path(args[1]));

        // 设置处理Map/Reduce阶段的类

        job.setMapperClass(WordCountMap.class);

        //map combine减少网路传出量

        job.setCombinerClass(WordCountReduce.class);

        job.setReducerClass(WordCountReduce.class);

        //如果map、reduce的输出的kv对类型一致，直接设置reduce的输出的kv对就行；如果不一样，需要分别设置map, reduce的        输出的kv类型

        //job.setMapOutputKeyClass(.class)

        // job.setMapOutputKeyClass(Text.class);

        // job.setMapOutputValueClass(IntWritable.class);

        // 设置reduce task最终输出key/value的类型

        job.setOutputKeyClass(Text.class);

        job.setOutputValueClass(IntWritable.class);

        // 提交作业

        job.waitForCompletion(true);

    }

}

2本地运行

首先更改mapred-site.xml文件配置

将mapreduce.framework.name的值设置为local

然后本地运行：

查看结果：

3集群运行

方式一：

首先打包

更改配置文件，改成yarn模式

添加本地jar包位置：

 Configuration configuration = new Configuration();

 configuration.set("mapreduce.job.jar","C:\\Users\\tanglei1\\IdeaProjects\\Hadooptang\\target");

设置允许跨平台远程调用：

configuration.set("mapreduce.app-submission.cross-platform","true");

修改输入参数：

运行结果：

方式二：

将maven项目打包，在服务器端用命令运行mr程序

hadoop jar com.kaikeba.hadoop-1.0-SNAPSHOT.jar

com.kaikeba.hadoop.wordcount.WordCountMain /tttt.txt  /wordcount11

Hadoop学习之路(5)Mapreduce程序完成wordcount的更多相关文章

Hadoop学习之第一个MapReduce程序
期望通过这个mapreduce程序了解mapreduce程序执行的流程,着重从程序解执行的打印信息中提炼出有用信息. 执行前程序代码程序代码基本上是<hadoop权威指南>上原封不动 ...
Hadoop学习之路(7)MapReduce自定义排序
本文测试文本: tom 20 8000 nancy 22 8000 ketty 22 9000 stone 19 10000 green 19 11000 white 39 29000 socrate ...
Hadoop学习之路(6)MapReduce自定义分区实现
MapReduce自带的分区器是HashPartitioner 原理:先对map输出的key求hash值,再模上reduce task个数,根据结果,决定此输出kv对,被匹配的reduce任务取走. ...
Hadoop学习笔记—4.初识MapReduce
一.神马是高大上的MapReduce MapReduce是Google的一项重要技术,它首先是一个编程模型,用以进行大数据量的计算.对于大数据量的计算,通常采用的处理手法就是并行计算.但对许多开发者来 ...
阿里封神谈hadoop学习之路
阿里封神谈hadoop学习之路封神 2016-04-14 16:03:51 浏览3283 评论3 发表于: 阿里云E-MapReduce >> 开源大数据周刊 hadoop 学生 s ...
Hadoop学习基础之三：MapReduce
现在是讨论这个问题的不错的时机,因为最近媒体上到处充斥着新的革命所谓“云计算”的信息.这种模式需要利用大量的(低端)处理器并行工作来解决计算问题.实际上,这建议利用大量的低端处理器来构建数据中心,而不 ...
《Hadoop学习之路》学习实践
(实践机器:blog-bench) 本文用作博文<Hadoop学习之路>实践过程中遇到的问题记录. 本文所学习的博文为博主“扎心了,老铁” 博文记录.参考链接https://www.cnb ...
Hadoop学习之路（十七）MapReduce框架Partitoner分区
Partitioner分区类的作用是什么? 在进行MapReduce计算时,有时候需要把最终的输出数据分到不同的文件中,比如按照省份划分的话,需要把同一省份的数据放到一个文件中:按照性别划分的话,需要 ...
Hadoop学习之路（十五）MapReduce的多Job串联和全局计数器
MapReduce 多 Job 串联需求一个稍复杂点的处理逻辑往往需要多个 MapReduce 程序串联处理,多 job 的串联可以借助 MapReduce 框架的 JobControl 实现实 ...

随机推荐

【题解】 2月19日厦门双十中学NOIP2014模拟D2 T2 采药人接水果
[问题描述] 采药人虽然 AFO(SU),但他在闲暇的时候还是可以玩一玩接水果(cat)的.但他渐渐发现 cat 好像有点太弱智.于是他不想浪费他的智商,于是决定写一个程序帮他玩. cat 是这样玩的 ...
有关版本控制--SVN
什么是版本控制? 这个之前有记录过相关的内容版本管理就是管理更新的历史记录, 它给我们提供了一些在软件开发过程中必不可少的功能,例如: 记录一款软件添加或更改源代码的过程回滚到特定阶段,恢复误删除 ...
mysql删除索引
删除索引删除索引可以使用ALTER TABLE或DROP INDEX语句来实现.DROP INDEX可以在ALTER TABLE内部作为一条语句处理,其格式如下: drop index index_ ...
alpine安装telnet等工具
alpine确实是很精简,但是对于熟悉了centos和ununtu的个人来说,实在是不习惯. 因此,记录关于alpine的一些包安装,以及操作细节(逐渐补充). 1. telnet >>& ...
802.11有线等效加密WEP
有线等效加密(WEP)标准是802.11无线安全早期的解决方案,WEP并不安全. 既然WEP并不安全,为什么还要学习WEP呢? WEP简单,相比后续出现的加密协议,它不要求有多么强大的计算能力.一些老 ...
.net对象与IntPtr"互转"
写于2015-1-29 16:17 由qq空间转过来,格式有点乱 "互转"这里其实只是GC分配的一个IntPtr,通过这个IntPtr引用操作而真正的托管对象与非托管对象的互转应使 ...
java开发病房管理系统
开发环境: Windows操作系统开发工具: Myeclipse+Jdk+Tomcat+MySQL数据库运行效果图源码及原文链接:https://javadao.xyz/forum.php?mod ...
Android在Activity中与Fragment中创建自定义菜单的区别
区别就在这里,Activity中添加菜单要这样: public boolean onCreateOptionsMenu(Menu menu) { getMenuInflater().inflate(R ...
python基础练习，循环、列表、字典、数组
# encoding: utf-8 ''' @author: mark @file: 20200214.py @time: 2020/2/14 14:21 @software: PyCharm ''' ...
Node.js核心模块-net
net.Socket 类 socket.remotePort 访问服务器的远程端口 const http = require('http'); const server = http.createSe ...

Hadoop学习之路(5)Mapreduce程序完成wordcount