MapReduce学习总结之java版wordcount实现

一、代码实现：

package rdb.com.hadoop01.mapreduce;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

/**

 * mapreduce word count 应用

 * @author rdb

 *

 */

public class WordCountApp {

    /**

     * map读取输入文件

     * @author rdb

     *

     */

    public static class MyMapper extends Mapper<LongWritable, Text, Text, LongWritable>{

        LongWritable one = new LongWritable(1);

        @Override

        protected void map(LongWritable key, Text value,

                Mapper<LongWritable, Text, Text, LongWritable>.Context context)

                throws IOException, InterruptedException {

            //接收每一行数据

            String line = value.toString();

            //按空格进行分割

            String[] words = line.split(" ");

            for(String word :words){

                //通过上下文把map处理结果输出

                context.write(new Text(word), one);

            }

        }

    }

    /**

     * reduce程序，归并统计

     * @author rdb

     *

     */

    public static class MyReduce extends Reducer<Text, LongWritable, Text, LongWritable>{

        @Override

        protected void reduce(Text key, Iterable<LongWritable> values,

                Reducer<Text, LongWritable, Text, LongWritable>.Context context)

                throws IOException, InterruptedException {

            long sum = 0;

            for (LongWritable value : values){

                //求单词次数

                sum += value.get();

            }

            //通过上下文把reduce处理结果输出

            context.write(key, new LongWritable(sum));

        }

    }

    /**

     * 自定义driver:封装mapreduce作业所有信息

     *@param args

     * @throws IOException

     */

    public static void main(String[] args) throws Exception {

        //创建配置

        Configuration configuration = new Configuration();

        //清理已经存在的输出目录

        Path out = new Path(args[1]);

        FileSystem fileSystem = FileSystem.get(configuration);

        if(fileSystem.exists(out)){

            fileSystem.delete(out, true);

            System.out.println("output exists,but it has deleted");

        }

        //创建job

        Job job = Job.getInstance(configuration,"WordCount");

        //设置job的处理类

        job.setJarByClass(WordCountApp.class);

        //设置作业处理的输入路径

        FileInputFormat.setInputPaths(job, new Path(args[0]));

        //设置map相关的参数

        job.setMapperClass(MyMapper.class);

        job.setMapOutputKeyClass(Text.class);

        job.setMapOutputValueClass(LongWritable.class);

        //设置reduce相关参数

        job.setReducerClass(MyReduce.class);

        job.setOutputKeyClass(Text.class);

        job.setOutputValueClass(LongWritable.class);

        //设置作业处理的输出路径

        FileOutputFormat.setOutputPath(job, new Path(args[1]));

        System.exit(job.waitForCompletion(true)? 0 : 1) ;

    }

}

二、运行结果：

调用：

hadoop jar ~/lib/hadoop01-0.0.1-SNAPSHOT.jar rdb.com.hadoop01.mapreduce.WordCountApp

hdfs://hadoop01:8020/hello.txt  hdfs://hadoop01:8020/output/wc

输入的文件内容：

Deer Bear River

Car Car River

Deer Car Bear

输出的结果：

Bear    2

Car     3

Deer    2

River   2

MapReduce学习总结之java版wordcount实现的更多相关文章

关于spark的mllib学习总结（Java版）
本篇博客主要讲述如何利用spark的mliib构建机器学习模型并预测新的数据,具体的流程如下图所示: 加载数据对于数据的加载或保存,mllib提供了MLUtils包,其作用是Helper metho ...
《Java学习笔记(第8版)》学习指导
<Java学习笔记(第8版)>学习指导目录图书简况学习指导第一章 Java平台概论第二章从JDK到IDE 第三章基础语法第四章认识对象第五章对象封装第六章继承与多 ...
20165234 [第二届构建之法论坛] 预培训文档(Java版) 学习总结
[第二届构建之法论坛] 预培训文档(Java版) 学习总结我通读并学习了此文档,并且动手实践了一遍.以下是我学习过程的记录~ Part1.配置环境配置JDK 原文中提到了2个容易被混淆的概念 JD ...
大数据学习——MapReduce学习——字符统计WordCount
操作背景 jdk的版本为1.8以上 ubuntu12 hadoop2.5伪分布安装 Hadoop-Eclipse-Plugin 要在 Eclipse 上编译和运行 MapReduce 程序,需要安装 ...
Hadoop之MapReduce学习笔记（一）
主要内容:mapreduce整体工作机制介绍:wordcont的编写(map逻辑和 reduce逻辑)与提交集群运行:调度平台yarn的快速理解以及yarn集群的安装与启动. 1.mapreduce ...
Hadoop MapReduce编程 API入门系列之wordcount版本1（五）
这个很简单哈,编程的版本很多种. 代码版本1 package zhouls.bigdata.myMapReduce.wordcount5; import java.io.IOException; im ...
PetaPojo —— JAVA版的PetaPoco
背景由于工作的一些原因,需要从C#转成JAVA.之前PetaPoco用得真是非常舒服,在学习JAVA的过程中熟悉了一下JAVA的数据组件: MyBatis 非常流行,代码生成也很成熟,性能也很好.但 ...
python实现文章或博客的自动摘要(附java版开源项目)
python实现文章或博客的自动摘要(附java版开源项目) 写博客的时候,都习惯给文章加入一个简介.现在可以自动完成了!TF-IDF与余弦相似性的应用(三):自动摘要 - 阮一峰的网络日志http: ...
复利计算--4.0 单元测试之JAVA版-软件工程
复利计算--4.0 单元测试-软件工程前言:由于本人之前做的是C语言版的复利计算,所以为了更好地学习单元测试,于是将C语言版的复利计算修改为JAVA版的. 一.主要的功能需求细分: 1.本金为100 ...

随机推荐

GStreamer跨平台多媒体框架
GStreamer跨平台多媒体框架 Gstreamer基本概念 GStreamer是用于构造媒体处理组件图的库.它支持的应用程序范围从简单的Ogg / Vorbis回放,音频/视频流到复杂的音频(混合 ...
DMS是临时解决方案？
DMS是临时解决方案? Who Says DMS Is an Interim Solution? 现在是认真对待DMS驱动程序监控系统的时候了. 特斯拉(Tesla)在台湾高速公路上撞上翻倒卡车的镜头 ...
Mac设置charles证书信任
「题解」HDU-4015 Mario and Mushrooms
本文将同步发布于: 洛谷博客: csdn: 博客园: 简书: 题目题目链接:HDU-4015 Mario and Mushrooms.Vjudge HDU-4015. 题意简述马里奥初始只有 \( ...
深度解密：Java与线程的关系
并发不一定要依赖多线程(如PHP的多进程并发),但在Java中谈论并发,大多数都与线程脱不开关系. 线程的实现线程是CPU调度的基本单位,Thread类与大部分的Java API有显著的差别,它的所 ...
NOIP模拟测试28「阴阳·虎·山洞」
写这几个题解我觉得我就像在按照官方题解抄一样阴阳题解将题目中给的阴阳看作黑色和白色首先我们观察到最后生成图中某种颜色必须是竖着单调递增或竖着单调递减类似这样否则不满足这个条件但合法染色方 ...
NOIP模拟测试29「爬山·学数数·七十和十七」
爬山题解不想写了学数数离散化然后找到以每一个值为最大值的连续子段有多少个,然后开个桶维护那么怎么找以每一个值为最大值的连续子段个数方法1(我的极笨的方法) 考试时我的丑陋思路, 定义极左值为左 ...
[Linux网络、命名空间、veth设备对、docker的host模式、container模式、none模式、brideg模式、网桥的增删查，容器与网桥的连接断开]
[Linux网络.命名空间.veth设备对.docker的host模式.container模式.none模式.brideg模式.网桥的增删查,容器与网桥的连接断开] 网络名称空间为了支持网络协议栈的 ...
mysql 事务，锁，隔离机制
mysql架构锁为了解并发问题,引入锁,mysql中锁分为读锁和写锁,即share lock和exclusive lock.故名思义,share lock之间不互斥,share lock和excl ...
使用A Star 算法实现自动寻路详解
@ 目录 1.什么是A Start算法 2.A Star算法的原理和流程 2.1 前提 2.1.1 从起点开始扩散的节点 2.1.2 最短距离计算公式:F = G + H 2.1.3 欧几里得距离计算 ...

MapReduce学习总结之java版wordcount实现

MapReduce学习总结之java版wordcount实现的更多相关文章

随机推荐

热门专题