MapReduce之WordCount

用户统计文件中的单词出现的个数

注意各个文件的导包，job的封装步骤

WordCountMapper.java

package top.wintp.mapreduce.wordcount;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

/**

 * @description: description:

 * <p>

 * @author: upuptop

 * <p>

 * @qq: 337081267

 * <p>

 * @CSDN: http://blog.csdn.net/pyfysf

 * <p>

 * @cnblogs: http://www.cnblogs.com/upuptop

 * <p>

 * @blog: http://wintp.top

 * <p>

 * @email: pyfysf@163.com

 * <p>

 * @time: 2019/05/2019/5/21

 * <p>

 */

public class WordCountMapper extends Mapper<LongWritable, Text, Text, IntWritable> {

    private Text K = new Text();

    private IntWritable V = new IntWritable(1);

    @Override

    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

        String line = value.toString();

        String[] words = line.split(" ");

        for (String word : words) {

            K.set(word);

            context.write(K, V);

        }

    }

}

WordCountReduce

package top.wintp.mapreduce.wordcount;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

/**

 * @description: description:

 * <p>

 * @author: upuptop

 * <p>

 * @qq: 337081267

 * <p>

 * @CSDN: http://blog.csdn.net/pyfysf

 * <p>

 * @cnblogs: http://www.cnblogs.com/upuptop

 * <p>

 * @blog: http://wintp.top

 * <p>

 * @email: pyfysf@163.com

 * <p>

 * @time: 2019/05/2019/5/21

 * <p>

 */

public class WordCountReduce extends Reducer<Text, IntWritable, Text, IntWritable> {

    private IntWritable V = new IntWritable();

    @Override

    protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {

        int sum = 0;

        for (IntWritable value : values) {

            sum += value.get();

        }

        V.set(sum);

        context.write(key, V);

    }

}

WordCountRunner

package top.wintp.mapreduce.wordcount;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import org.apache.hadoop.util.Tool;

import org.apache.hadoop.util.ToolRunner;

/**

 * @description: description:

 * <p>

 * @author: upuptop

 * <p>

 * @qq: 337081267

 * <p>

 * @CSDN: http://blog.csdn.net/pyfysf

 * <p>

 * @cnblogs: http://www.cnblogs.com/upuptop

 * <p>

 * @blog: http://wintp.top

 * <p>

 * @email: pyfysf@163.com

 * <p>

 * @time: 2019/05/2019/5/21

 * <p>

 */

public class WordCountRunner implements Tool {

    private Configuration conf;

    public int run(String[] strings) throws Exception {

        //封装job

        Job job = Job.getInstance(this.conf);

        job.setJarByClass(WordCountRunner.class);

        job.setMapperClass(WordCountMapper.class);

        job.setReducerClass(WordCountReduce.class);

        job.setMapOutputKeyClass(Text.class);

        job.setMapOutputValueClass(IntWritable.class);

        job.setOutputKeyClass(Text.class);

        job.setOutputValueClass(IntWritable.class);

        FileInputFormat.setInputPaths(job, new Path("E:/input/wordcount/"));

        FileOutputFormat.setOutputPath(job, new Path("E:/output/wordcount/" + System.currentTimeMillis()));

        //提交任务

        int result = job.waitForCompletion(true) ? 0 : 1;

        return result;

    }

    public void setConf(Configuration configuration) {

        this.conf = configuration;

    }

    public Configuration getConf() {

        return this.conf;

    }

    public static void main(String[] args) throws Exception {

        int status = ToolRunner.run(new WordCountRunner(), args);

        System.exit(status);

    }

}

log4j.properties

log4j.rootLogger=INFO, stdout

log4j.appender.stdout=org.apache.log4j.ConsoleAppender

log4j.appender.stdout.layout=org.apache.log4j.PatternLayout

log4j.appender.stdout.layout.ConversionPattern=%d %p [%c] - %m%n

log4j.appender.logfile=org.apache.log4j.FileAppender

log4j.appender.logfile.File=target/spring.log

log4j.appender.logfile.layout=org.apache.log4j.PatternLayout

log4j.appender.logfile.layout.ConversionPattern=%d %p [%c] - %m%n

MapReduce之WordCount的更多相关文章

Java编程MapReduce实现WordCount
Java编程MapReduce实现WordCount 1.编写Mapper package net.toocruel.yarn.mapreduce.wordcount; import org.apac ...
eclipse运行mapreduce的wordcount
1,eclipse安装hadoop插件插件下载地址:链接: https://pan.baidu.com/s/1U4_6kLFNiKeLsGfO7ahXew 提取码: as9e 下载hadoop-ec ...
MapReduce实现WordCount
package algorithm; import java.io.IOException; import java.util.StringTokenizer; import org.apache.h ...
Hadoop实战5:MapReduce编程-WordCount统计单词个数-eclipse-java-windows环境
Hadoop研发在java环境的拓展一背景由于一直使用hadoop streaming形式编写mapreduce程序,所以目前的hadoop程序局限于python语言.下面为了拓展java语言研 ...
Hadoop实战3:MapReduce编程-WordCount统计单词个数-eclipse-java-ubuntu环境
之前习惯用hadoop streaming环境编写python程序,下面总结编辑java的eclipse环境配置总结,及一个WordCount例子运行. 一下载eclipse安装包及hadoop插件 ...
Hadoop 6、第一个mapreduce程序 WordCount
1.程序代码 Map: import java.io.IOException; import org.apache.hadoop.io.IntWritable; import org.apache.h ...
Hadoop Mapreduce中wordcount 过程解析
将文件split 文件1: 分割结果: hello world ...
三.hadoop mapreduce之WordCount例子
目录: 目录见文章1 这个案列完成对单词的计数,重写map,与reduce方法,完成对mapreduce的理解. Mapreduce初析 Mapreduce是一个计算框架,既然是做计算的框架,那么表现 ...
大数据技术 - 通俗理解MapReduce之WordCount（三）
上一章我们编写了简单的 MapReduce 程序,掌握这些就能编写大多数数据处理的代码.但是 MapReduce 框架提供给用户的能力并不止如此,本章我们仍然以上一章 word count 为例,继续 ...
大数据技术 - 通俗理解MapReduce之WordCount（二）
上一章我们搭建了分布式的 Hadoop 集群.本章我们介绍 Hadoop 框架中的一个核心模块 - MapReduce.MapReduce 是并行计算模块,顾名思义,它包含两个主要的阶段,map 阶段 ...

随机推荐

Delphi 屏幕抓图技术的实现
摘要:本文以Delphi7.0作为开发平台,给出了网络监控软件中的两种屏幕抓图技术的设计方法和步骤.介绍了教师在计算机机房内教学时,如何监控学生计算机显示器上的画面,以保证教学的质量和效果. 引言 ...
GetParent、SetParent、MoveWindow - 获取、指定父窗口和移动窗口，IsChild - 判断两个窗口是不是父子关系
提示: SetParent 应该 Windows.SetParent, 因为 TForm 的父类有同名方法. //声明: {获取父窗口句柄} GetParent(hWnd: HWND): HWND; ...
excel导入到数据库的异常处理
excel导入到数据库,这个是经常发生的,今天就碰到了一个非常郁闷的事情,在导入到oracle数据的时候,总是出现ORA-01756: 引号内的字符串没有正确结束,认真的排插了数据当中可能出现的错误, ...
对Qt for Android的评价（很全面，基本已经没有问题了），可以重用QT积累20年的RTL是好事，QML效率是HTML5的5倍
现在Qt不要光看跨平台了,Qt也有能力和原生应用进行较量的.可以直接去Qt官网查看他和那些厂商合作.关于和Java的比较,框架和Java进行比较似乎不且实际.如果是C++和Java比较,网上有很多文章 ...
《C++ Primer》读书笔记第三章
1.注意:头文件不应包含using声明.因为头文件的内容会拷贝到所有引用他的文件中去,对于某些程序来说,由于不经意间包含了一些名字,可能会产生名字冲突.2.string类型的读入:用cin读入stri ...
Python魔法方法__getattr__和__getattribute__详解
在Python中有这两个魔法方法容易让人混淆:__getattr__和getattribute.通常我们会定义__getattr__而从来不会定义getattribute,下面我们来看看这两个的区别. ...
函数式编程里的Materialization应该翻译成什么?
Materialization是函数式编程里的一个专业术语, 用于特指函数式编程中查询被实际执行并生成结果的这一过程. 首先, 搜了一下中文资料, 暂时没有对该词的中文翻译, CSDN\博客园\阿里 ...
Fabric1.4源码解析：Peer节点背书提案过程
以前从来没有写过博客,从这段时间开始才开始写一些自己的博客,之前总觉得写一篇博客要耗费大量的时间,而且写的还是自己已经学会的,觉得没什么必要.但是当开始用博客记录下来的时候,才发现有些学会的地方只是自 ...
happy machine learning(First One)
从前几天起我就开始了愉快的机器学习,这里记录一下学习笔记,我看的是吴恩达老师的视频,这篇博客将会按吴老师的教学目录来集合各优良文章,以及部分的我的个人总结 1. 监督学习与无监督学习监督:给定一个 ...
【Mac】Mac快捷键与Mac下的Idea快捷键
本人之前一直在windows平台下进行开发,刚接触Mac的时候有些许的不适应,无论是无鼠标操作,还是文件系统的变更,以及键盘格式以及系统快捷键的变更,都曾对自己造成过一定程度的困扰. ...

MapReduce之WordCount

MapReduce之WordCount的更多相关文章

随机推荐

热门专题