hadoop-job(mapReducer计算单词出现的个数)

1.============map===============

package com.it18zhang.hadoop.mr;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

/**
 * Mapper
 */
public class WordCountMapper extends Mapper<LongWritable, Text, Text, IntWritable> {
    /**
     * key : 行首偏移量，字节数，意义不大。
     * value ： 一行文本
     */
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        //
        String line = value.toString() ;
        String[] arr = line.split(" ");

        Text keyOut = new Text() ;
        IntWritable valueOut = new IntWritable(1) ;
        for(String word : arr){
            keyOut.set(word);
            context.write(keyOut,valueOut);
        }
    }
}

2.============refucer===============

package com.it18zhang.hadoop.mr;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

/**
 * reducer
 */
public class WordCountReducer extends Reducer<Text, IntWritable, Text, IntWritable> {
    /**
     * key : word
     * values : 该key下聚合的value
     */
    protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
        int count = 0 ;
        for(IntWritable iw : values){
            count = count + iw.get() ;
        }
        context.write(key , new IntWritable(count));
    }
}

3.============统计===============

package com.it18zhang.hadoop.mr;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;
public class App {
    public static void main(String[] args) throws Exception {
        if(args == null || args.length<2){
            throw new Exception("参数不足，需要2个参数");
        }
        Configuration conf = new Configuration();
        FileSystem fs = FileSystem.get(conf);
        //递归删除输出目录
        fs.delete(new Path(args[1]),true);

        //创建一个作业
        Job job = Job.getInstance(conf);
        //调用job方法 名字随便期（word_count_add ）
        job.setJobName("word_count_add");
        //获取类的路径
        job.setJarByClass(App.class);

//        //需要计算的文件路径
//        FileInputFormat.addInputPath(job,new Path("file:///Users/yangyanqing/godev/wc"));
//        //计算后文件输出
//        FileOutputFormat.setOutputPath(job,new Path("file:///Users/yangyanqing/godev/wc/out"));
        //需要计算的文件路径
        FileInputFormat.addInputPath(job,new Path(args[0]));
        //计算后文件输出
        FileOutputFormat.setOutputPath(job,new Path(args[1]));

        //设置mapper类和reducer类
        job.setMapperClass(WordCountMapper.class);
        job.setReducerClass(WordCountReducer.class);

        //输出mapper类和reducer类的类型
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class );
        //设置readuce个数
        job.setNumReduceTasks(1);
        //开始作业
        job.waitForCompletion(true);
    }
}

hadoop-job(mapReducer计算单词出现的个数)的更多相关文章

hadoop输入分片计算(Map Task个数的确定)
作业从JobClient端的submitJobInternal()方法提交作业的同时,调用InputFormat接口的getSplits()方法来创建split.默认是使用InputFormat的子类 ...
神秘常量复出！用0x077CB531计算末尾0的个数 -- De Bruijn 序列
http://www.matrix67.com/blog/archives/3985 神秘常量复出!用0x077CB531计算末尾0的个数大家或许还记得 Quake III 里面的一段有如天书般的代 ...
简单的java Hadoop MapReduce程序(计算平均成绩)从打包到提交及运行
[TOC] 简单的java Hadoop MapReduce程序(计算平均成绩)从打包到提交及运行程序源码 import java.io.IOException; import java.util. ...
python练习：一行搞定-统计一句话中每个单词出现的个数
一行搞定-统计一句话中每个单词出现的个数 >>> s'i am a boy a bood boy a bad boy' 方式一:>>> dict([(i,s.spl ...
map集合修改其中元素去除Map集合中所有具有相同值的元素 Properties长久保存的流操作两种用map记录单词或字母个数的方法
package com.swift.lianxi; import java.util.HashMap; import java.util.Iterator; import java.util.Map; ...
[原创]java WEB学习笔记41：简单标签之带属性的自定义标签(输出指定文件，计算并输出两个数的最大值 demo)
本博客为原创:综合尚硅谷(http://www.atguigu.com)的系统教程(深表感谢)和网络上的现有资源(博客,文档,图书等),资源的出处我会标明本博客的目的:①总结自己的学习过程,相当 ...
java统计文本中单词出现的个数
package com.java_Test; import java.io.File; import java.util.HashMap; import java.util.Iterator; imp ...
mapreducer计算原理
mapreducer计算原理
Shell统计每个单词出现的个数
题目链接题目描述写一个 bash脚本以统计一个文本文件 nowcoder.txt 中每个单词出现的个数. 为了简单起见,你可以假设: nowcoder.txt只包括小写字母和空格. 每个单词只由小 ...

随机推荐

2.SpringMVC执行流程
SpringMVC 执行流程: 执行流程简单分析: 1.浏览器提交请求到中央调度器 2.中央调度器直接将请求转给处理器映射器 3.处理器映射器会根据请求,找到处理该请求的处理器,并将其封装为处理器执行 ...
2.IOC 配置与应用（xml的方式）
1.注入方式 a)setter(主要) b)构造方法(可以忘记) c)接口注入(可以忘记) 2.id vs name bean 标签中可以使用 name 属性来完成 id 属性的功能,不过习惯 ...
【jekins】tomcat+jenkins
启动jiekins:进入tomcat安装路径下的bin文件,运行startup.bat文件打开http://127.0.0.1:8080/jenkins 地址一.构建github项目原理:构建项 ...
go爬虫之爬取豆瓣电影
go爬取豆瓣电影好久没使用go语言做个项目了,上午闲来无事花了点时间使用golang来爬取豆瓣top电影,这里我没有用colly框架而是自己设计简单流程.mark一下思路定义两个channel, ...
sql从n月到m月数据汇总，没有数据，当月显示0
做个备份 -- 按月份统计select date1, MONTHS, createtime, nvl(count2, 0)+count1 from ( SELECT TO_CHAR(ADD_MONTH ...
HashSet怎样保证元素不重复
文章同步更新在个人博客:HashSet怎样保证元素不重复都知道HashSet中不能存放重复元素,有时候可以用来做去重操作等.但是其内部是怎么保证元素不重复的呢?下面从源码去看看. 打开HashSet ...
Bootstrap-轮播图-No.6
<!DOCTYPE html> <html lang="zh"> <head> <meta charset="UTF-8&quo ...
BZOJ 1188 / Luogu P3185 [HNOI2007]分裂游戏 (SG函数)
题意有n个格子,标号为0 ~ n-1,每个格子上有若干石子,每次操作可以选一个0 ~ n-2的格子上的一颗石子,分裂为两颗,然后任意放在后面的两个格子内,这两个格子可以相同.求使先手必胜的第一步的方 ...
Springboot项目关闭Httpclient的Debug日志
今天在做httpclient测试时,发现控制台打印了好多请求相关的信息,如何去掉这些不打印? (2)在配置文件包下加入logback.xml文件,文件内容如下: <?xml version=&q ...
eclipse找不到JadClipse问题
版本信息: Eclipse Java EE IDE for Web Developers. Version: 2018-09 (4.9.0) 根据以往配置,放在eclipse\plugins下不生效, ...

hadoop-job(mapReducer计算单词出现的个数)

hadoop-job(mapReducer计算单词出现的个数)的更多相关文章

随机推荐

热门专题