程序使用的测试文本数据：

Dear River

Dear River Bear Spark

Car Dear Car Bear Car

Dear Car River Car

Spark Spark Dear Spark

1编写主要类

（1）Maper类

首先是自定义的Maper类代码

public class WordCountMap extends Mapper<LongWritable, Text, Text, IntWritable> {

    public void map(LongWritable key, Text value, Context context)

            throws IOException, InterruptedException {

        //fields:代表着文本一行的的数据: dear bear river

        String[] words = value.toString().split("\t");

        for (String word : words) {

            // 每个单词出现１次，作为中间结果输出

            context.write(new Text(word), new IntWritable(1));

        }

    }

}

这个Map类是一个泛型类型，它有四个形参类型，分别指定map()函数的输入键、输入值、输出键和输出值的类型。LongWritable：输入键类型，Text：输入值类型，Text:输出键类型，IntWritable：输出值类型.

String[] words = value.toString().split("\t");,words 的值为Dear River Bear River

输入键key是一个长整数偏移量，用来寻找第一行的数据和下一行的数据，输入值是一行文本Dear River Bear River，输出键是单词Bear ，输出值是整数1。

Hadoop本身提供了一套可优化网络序列化传输的基本类型，而不直接使用Java内嵌的类型。这些类型都在org.apache.hadoop.io包中。这里使用LongWritable类型(相当于Java的Long类型)、Text类型(相当于Java中的String类型)和IntWritable类型(相当于Java的Integer类型)。

map()方法的参数是输入键和输入值。以本程序为例，输入键LongWritable key是一个偏移量，输入值Text value是Dear Car Bear Car ，我们首先将包含有一行输入的Text值转换成Java的String类型，之后使用substring()方法提取我们感兴趣的列。map()方法还提供了Context实例用于输出内容的写入。

（2）Reducer类

public class WordCountReduce extends Reducer<Text, IntWritable, Text, IntWritable> {

    /*

        (River, 1)

        (River, 1)

        (River, 1)

        (Spark , 1)

        (Spark , 1)

        (Spark , 1)

        (Spark , 1)

        key: River

        value: List(1, 1, 1)

        key: Spark

        value: List(1, 1, 1,1)

    */

    public void reduce(Text key, Iterable<IntWritable> values,

                          Context context) throws IOException, InterruptedException {

        int sum = 0;

        for (IntWritable count : values) {

            sum += count.get();

        }

        context.write(key, new IntWritable(sum));// 输出最终结果

    };

}

Reduce任务最初按照分区号从Map端抓取数据为：

(River, 1)

(River, 1)

(River, 1)

(spark, 1)

(Spark , 1)

(Spark , 1)

(Spark , 1)

经过处理后得到的结果为：

key: hello value: List(1, 1, 1)

key: spark value: List(1, 1, 1,1)

所以reduce()函数的形参 Iterable<IntWritable> values 接收到的值为List(1, 1, 1)和List(1, 1, 1,1)

（3）Main函数

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;

public class WordCountMain {

    //若在IDEA中本地执行MR程序，需要将mapred-site.xml中的mapreduce.framework.name值修改成local

    public static void main(String[] args) throws IOException,

            ClassNotFoundException, InterruptedException {

        if (args.length != 2 || args == null) {

            System.out.println("please input Path!");

            System.exit(0);

        }

        //System.setProperty("HADOOP_USER_NAME","hadoop2.7");

        Configuration configuration = new Configuration();

        //configuration.set("mapreduce.job.jar","/home/bruce/project/kkbhdp01/target/com.kaikeba.hadoop-1.0-SNAPSHOT.jar");

        //调用getInstance方法，生成job实例

        Job job = Job.getInstance(configuration, WordCountMain.class.getSimpleName());

        // 打jar包

        job.setJarByClass(WordCountMain.class);

        // 通过job设置输入/输出格式

        // MR的默认输入格式是TextInputFormat，所以下两行可以注释掉

        // job.setInputFormatClass(TextInputFormat.class);

        // job.setOutputFormatClass(TextOutputFormat.class);

        // 设置输入/输出路径

        FileInputFormat.setInputPaths(job, new Path(args[0]));

        FileOutputFormat.setOutputPath(job, new Path(args[1]));

        // 设置处理Map/Reduce阶段的类

        job.setMapperClass(WordCountMap.class);

        //map combine减少网路传出量

        job.setCombinerClass(WordCountReduce.class);

        job.setReducerClass(WordCountReduce.class);

        //如果map、reduce的输出的kv对类型一致，直接设置reduce的输出的kv对就行；如果不一样，需要分别设置map, reduce的        输出的kv类型

        //job.setMapOutputKeyClass(.class)

        // job.setMapOutputKeyClass(Text.class);

        // job.setMapOutputValueClass(IntWritable.class);

        // 设置reduce task最终输出key/value的类型

        job.setOutputKeyClass(Text.class);

        job.setOutputValueClass(IntWritable.class);

        // 提交作业

        job.waitForCompletion(true);

    }

}

2本地运行

首先更改mapred-site.xml文件配置

将mapreduce.framework.name的值设置为local

然后本地运行：

查看结果：

3集群运行

方式一：

首先打包

更改配置文件，改成yarn模式

添加本地jar包位置：

 Configuration configuration = new Configuration();

 configuration.set("mapreduce.job.jar","C:\\Users\\tanglei1\\IdeaProjects\\Hadooptang\\target");

设置允许跨平台远程调用：

configuration.set("mapreduce.app-submission.cross-platform","true");

修改输入参数：

运行结果：

方式二：

将maven项目打包，在服务器端用命令运行mr程序

hadoop jar com.kaikeba.hadoop-1.0-SNAPSHOT.jar

com.kaikeba.hadoop.wordcount.WordCountMain /tttt.txt  /wordcount11

Hadoop学习之路(5)Mapreduce程序完成wordcount的更多相关文章

Hadoop学习之第一个MapReduce程序
期望通过这个mapreduce程序了解mapreduce程序执行的流程,着重从程序解执行的打印信息中提炼出有用信息. 执行前程序代码程序代码基本上是<hadoop权威指南>上原封不动 ...
Hadoop学习之路(7)MapReduce自定义排序
本文测试文本: tom 20 8000 nancy 22 8000 ketty 22 9000 stone 19 10000 green 19 11000 white 39 29000 socrate ...
Hadoop学习之路(6)MapReduce自定义分区实现
MapReduce自带的分区器是HashPartitioner 原理:先对map输出的key求hash值,再模上reduce task个数,根据结果,决定此输出kv对,被匹配的reduce任务取走. ...
Hadoop学习笔记—4.初识MapReduce
一.神马是高大上的MapReduce MapReduce是Google的一项重要技术,它首先是一个编程模型,用以进行大数据量的计算.对于大数据量的计算,通常采用的处理手法就是并行计算.但对许多开发者来 ...
阿里封神谈hadoop学习之路
阿里封神谈hadoop学习之路封神 2016-04-14 16:03:51 浏览3283 评论3 发表于: 阿里云E-MapReduce >> 开源大数据周刊 hadoop 学生 s ...
Hadoop学习基础之三：MapReduce
现在是讨论这个问题的不错的时机,因为最近媒体上到处充斥着新的革命所谓“云计算”的信息.这种模式需要利用大量的(低端)处理器并行工作来解决计算问题.实际上,这建议利用大量的低端处理器来构建数据中心,而不 ...
《Hadoop学习之路》学习实践
(实践机器:blog-bench) 本文用作博文<Hadoop学习之路>实践过程中遇到的问题记录. 本文所学习的博文为博主“扎心了,老铁” 博文记录.参考链接https://www.cnb ...
Hadoop学习之路（十七）MapReduce框架Partitoner分区
Partitioner分区类的作用是什么? 在进行MapReduce计算时,有时候需要把最终的输出数据分到不同的文件中,比如按照省份划分的话,需要把同一省份的数据放到一个文件中:按照性别划分的话,需要 ...
Hadoop学习之路（十五）MapReduce的多Job串联和全局计数器
MapReduce 多 Job 串联需求一个稍复杂点的处理逻辑往往需要多个 MapReduce 程序串联处理,多 job 的串联可以借助 MapReduce 框架的 JobControl 实现实 ...

随机推荐

codewars--js--Range Extraction
问题描述: A format for expressing an ordered list of integers is to use a comma separated list of either ...
配置 Apache James 邮件服务器以使用加密邮件通讯协议
可先参照: 使用 Apache James 3.3.0(开源免费) 搭建内网电子邮件服务器(基于 Windows + Amazon Corretto 8)https://www.cnblogs.com ...
SAP 对HU做转库操作，系统报错 - 系统状态HUAS是活动的 - 分析
SAP 对HU做转库操作,系统报错 - 系统状态HUAS是活动的 - 分析近日收到业务团队报的问题,说是对某个HU做转库时候,系统报错.如下图示: HU里有是三个序列号, 1191111034011 ...
1.4掌握日志工具的使用——Android第一行代码（第二版）笔记
Android中的日志工具类是Log(android.util.Log),这个类中提供了如下5个方法来供我们打印日志. Log.v():用于打印那些最为琐碎的.意义最小的日志信息.对应级别verbos ...
SparkShuffle机制
在早期版本的Spark中,shuffle过程没有磁盘读写操作,是纯内存操作,后来发现效率较低,且极易引发OOME,较新版本的Shuffle操作都加入了磁盘读写进行了改进. 1.未经优化的HashShu ...
JSP其余内置对象及四大范围对象的使用
一.application String getContextPath():获取虚拟路径String getRealPath():获取虚拟路径对应的绝对路径实例 application.jsp &l ...
虚拟机安装_1_wincc_matriton
1,安装虚拟机: 选择:win7专业版64位ISO. 2,安装office2016 3,激活系统和OFFICE 4,安装winccV7.4 4.1 安装WINDOWS组件 MSMQ 4.1.1 安装I ...
WPF 控件功能重写(ComboBox回车搜索)
前言:在我们日常使用软件的时候,Combobox会让用户很方便的选择出需要的东西,但是ComboBox中的下拉行数过多时就不那么好用了. 如果在项目中有很多这样的ComboBox控件的话,我们可以考虑 ...
jQuery---$冲突的解决方案
$冲突的解决方案遇到其他js文件也用$包装了函数.可以把jQuery放在后面,并释放下$的控制权,也可以换个字符替代原来的$,例如$$ 或者,jQuery //jQuery释放$的控制权 $$ = ...
win10自带邮箱如何使用？win10自带邮箱如何同步qq邮箱邮件？
win10自带邮箱如何使用? 相信很多小伙伴在登录win10自带的邮箱登录QQ邮箱时,显示同步失败或者登录超时,但又找不到相关的资料,下面是我自己邮箱的操作流程,小伙伴可以尝试一下,有什么问题留言即可 ...

Hadoop学习之路(5)Mapreduce程序完成wordcount