WordCount程序代码解

 package com.bigdata.hadoop.wordcount;

 import java.io.IOException;

 import org.apache.hadoop.conf.Configuration;

 import org.apache.hadoop.fs.Path;

 import org.apache.hadoop.io.IntWritable;

 import org.apache.hadoop.io.LongWritable;

 import org.apache.hadoop.io.Text;

 import org.apache.hadoop.mapreduce.Job;

 import org.apache.hadoop.mapreduce.Mapper;

 import org.apache.hadoop.mapreduce.Reducer;

 import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

 import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

 public class WordCount {

     /**

      * 设置Map方法

      * @author hxiuz

      *

      */

     private static class WCMapper extends Mapper<LongWritable, Text, Text, IntWritable>{

         private Text mapOutkey = new Text();    //设置输出key的格式

         private final static IntWritable mapOutvalue = new IntWritable(1);    //设置输出value的格式并赋值1

         @Override

         protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, Text, IntWritable>.Context context)

                 throws IOException, InterruptedException {    //key即行偏移量

             String input = value.toString();    //读入value数据

             String[] inArr = input.split(" ");    //按空格分割

             for(String str:inArr) {

                 mapOutkey.set(str);    //给key赋值

                 context.write(mapOutkey, mapOutvalue);    //写入

             }

         }

     }

     /**

      * 设置Reduce方法

      * @author hxiuz

      *

      */

     private static class WCReducer extends Reducer<Text, IntWritable, Text, IntWritable>{

         private IntWritable redOutvalue = new IntWritable();

         @Override

         protected void reduce(Text key, Iterable<IntWritable> values,

                 Reducer<Text, IntWritable, Text, IntWritable>.Context context) throws IOException, InterruptedException {

             int sum = 0;    //计数变量

             for(IntWritable value:values) {

                 sum += value.get();    //遍历集合values并将计数累加

             }

             redOutvalue.set(sum);    //给输出value赋值为sum

             context.write(key, redOutvalue);    //写入

         }

     }

     /**

      * 主方法入口

      * @param args

      */

     public static void main(String[] args) {

         // TODO Auto-generated method stub

         if(args.length!=2) {

             System.out.println("Usage:wordcount <in> <out>");

             return ;

         }

         Configuration conf = new Configuration();    //读取配置文件

         try {

             //新建一个job任务实例  并通过类设置jar

             Job job = Job.getInstance(conf, WordCount.class.getSimpleName());

             job.setJarByClass(WordCount.class);

             //设置输入路径

             Path inputPath = new Path(args[0]);

             FileInputFormat.addInputPath(job, inputPath);

             //设置map类

             job.setMapperClass(WCMapper.class);

             //设置map输出的格式

             job.setMapOutputKeyClass(Text.class);

             job.setMapOutputValueClass(IntWritable.class);

             //设置reduce类

             job.setReducerClass(WCReducer.class);

             //设置reduce输出的格式

             job.setOutputKeyClass(Text.class);

             job.setOutputValueClass(IntWritable.class);

             //设置输出路径

             Path outputPath = new Path(args[1]);

             FileOutputFormat.setOutputPath(job, outputPath);

             //提交任务

             boolean jobStatus = job.waitForCompletion(true);    

             //判断程序是否正常退出

             System.exit(jobStatus ? 0 : 1);

         } catch (Exception e) {

             // TODO Auto-generated catch block

             e.printStackTrace();

         }

     }

 }

WordCount程序代码解的更多相关文章

解决在windows的eclipse上面运行WordCount程序出现的一系列问题详解
一．简介要在Windows下的 Eclipse上调试Hadoop2代码,所以我们在windows下的Eclipse配置hadoop-eclipse-plugin- 2.6.0.jar插件,并在运行H ...
大数据之路week07--day03（Hadoop深入理解，JAVA代码编写WordCount程序，以及扩展升级）
什么是MapReduce 你想数出一摞牌中有多少张黑桃.直观方式是一张一张检查并且数出有多少张是黑桃. MapReduce方法则是: 1.给在座的所有玩家中分配这摞牌 2.让每个玩家数自己手中的牌有几 ...
Bullet核心类介绍（Bullet 2.82 HelloWorld程序及其详解，附程序代码）
实验平台:win7,VS2010 先上结果截图: 文章最后附有生成该图的程序. 1. 刚体模拟原理 Bullet作为一个物理引擎,其任务就是刚体模拟(还有可变形体模拟).刚体模拟,就是要计算预测物体的 ...
c语言—栈区，堆区，全局区，文字常量区，程序代码区详解
转:http://www.cnblogs.com/xiaowenhui/p/4669684.html 一.预备知识—程序的内存分配一个由C/C++编译的程序占用的内存分为以下几个部分1.栈区(sta ...
Eclipse环境搭建并且运行wordcount程序
一.安装Hadoop插件 1. 所需环境 hadoop2.0伪分布式环境平台正常运行所需压缩包:eclipse-jee-luna-SR2-linux-gtk-x86_64.tar.gz 在Linu ...
Hadoop集群WordCount运行详解（转）
原文链接:Hadoop集群(第6期)_WordCount运行详解 1.MapReduce理论简介 1.1 MapReduce编程模型 MapReduce采用"分而治之"的思想,把对 ...
（三）配置Hadoop1.2.1+eclipse(Juno版)开发环境，并运行WordCount程序
配置Hadoop1.2.1+eclipse(Juno版)开发环境,并运行WordCount程序一. 需求部分在ubuntu上用Eclipse IDE进行hadoop相关的开发,需要在Eclip ...
在Pycharm上编写WordCount程序
本篇博客将给大家介绍怎么在PyCharm上编写运行WordCount程序. 第一步下载安装PyCharm 下载Pycharm PyCharm的下载地址(Linux版本).下载完成后你将得到一个名叫: ...
软件工程：Wordcount程序作业
由于时间的关系,急着交作业,加上这一次也不是那么很认真的去做,草草写了“Wordcount程序”几个功能,即是 .txt文件的读取,能计算出文件内容的单词数,文件内容的字符数,及行数. 这次选用C来做 ...

随机推荐

RestTemplate 支持服务器内302重定向
Stack Overflow 里找到的代码,可以正常返回服务器302重定向后的响应 final RestTemplate restTemplate = new RestTemplate(); fina ...
tcp/ip 卷一读书笔记（5）arp和rarp 同网段和不同网段之间的通信过程
arp和rarp 同网段和不同网段之间的通信过程 IPv6中已经没有arp rarp协议,所以这里都是IPv4. 链路层使用以太网地址来确定目的地址,应用则常使用ip地址通信 arp协议是指从ip地址 ...
html、text、val、attr、prop区别。this.value和$(this).val()区别以及return用法
html(): html() 方法返回或设置被选元素的内容 (inner HTML). 当使用该方法读取多个值时,它会返回第一个匹配元素的内容. 当使用该方法设置一个值时,它会覆盖所有匹配元素的内容. ...
Trump就职演说
美东时间1月20日,特朗普在美国国会大厦宣誓就职,正式成为第45任美国总统.特朗普在就职演说中说,"我们曾经致力于保卫其他国家的领地,却忽略了我们自己的领土.我们曾经将成千上万亿美元转移到海 ...
vxWorks下intel82567v3网卡驱动的更新
/* 82567 devicesID */ #define INTEL_DEVICEID_82567LF 0x10BF#define INTEL_DEVICEID_82567 ...
C#中的匿名函数使用，类名<T>
C#中有个叫做"泛型"的集合,就是说只是个外壳,到底是int,string,bool还是什么类型,都可以按照自己的要求进行定义集合,所以我们用个"T"表示. 请 ...
初识Go语言
一.Go语言的主要特性: ① 开放源代码的通用计算机编程语言.开放源代码的软件(以下简称开源软件)更容易被修正和改进. ② 虽为静态类型.编译型的语言,但go语言的语法却趋于脚本化,非常简 ...
【BZOJ2004】公交线路（动态规划，状态压缩，矩阵快速幂）
[BZOJ2004]公交线路(动态规划,状态压缩,矩阵快速幂) 题面 BZOJ 题解看到$k,p$这么小不难想到状态压缩看到$n$这么大,不难想到矩阵快速幂那么,我们来考虑朴素的\(d ...
[JZOJ5511] 送你一个DAG
题目描述: 给出一个 $n$ 个点 $m$ 条边的 $DAG$ 和参数 $k$. 定义一条经过 $l$ 条边的路径的权值为 $l^k$. 对于 $i = 1-n$, 求出所 ...
Bzoj4805: 欧拉函数求和
好久没写杜教筛了练练手AC量刷起 # include <bits/stdc++.h> # define RG register # define IL inline # define F ...

WordCount程序代码解

WordCount程序代码解的更多相关文章

随机推荐

热门专题