一个可以跑的Hadoop的WordCount程序

搭个新环境时总要折腾一下，于是干脆记下来。

程序：

package  com.my;  

import  java.io.IOException;

import  java.util.Iterator;

import  java.util.StringTokenizer;  

import  org.apache.hadoop.fs.Path;

import  org.apache.hadoop.io.IntWritable;

import  org.apache.hadoop.io.LongWritable;

import  org.apache.hadoop.io.Text;

import  org.apache.hadoop.mapred.FileInputFormat;

import  org.apache.hadoop.mapred.FileOutputFormat;

import  org.apache.hadoop.mapred.JobClient;

import  org.apache.hadoop.mapred.JobConf;

import  org.apache.hadoop.mapred.MapReduceBase;

import  org.apache.hadoop.mapred.Mapper;

import  org.apache.hadoop.mapred.OutputCollector;

import  org.apache.hadoop.mapred.Reducer;

import  org.apache.hadoop.mapred.Reporter;

import  org.apache.hadoop.mapred.TextInputFormat;

import  org.apache.hadoop.mapred.TextOutputFormat;

public   class  WordCount

{  

    public   static   class  Map  extends  MapReduceBase  implements

            Mapper<LongWritable, Text, Text, IntWritable>

    {

        private   final   static  IntWritable one =  new  IntWritable( 1 );

        private  Text word =  new  Text();  

        public   void  map(LongWritable key, Text value,

                OutputCollector<Text, IntWritable> output, Reporter reporter)

                throws  IOException

        {

            String line = value.toString();

            StringTokenizer tokenizer = new  StringTokenizer(line);

            while  (tokenizer.hasMoreTokens())

            {

                word.set(tokenizer.nextToken());

                output.collect(word, one);

            }

        }

    }  

    public   static   class  Reduce  extends  MapReduceBase  implements

            Reducer<Text, IntWritable, Text, IntWritable>

    {

        public   void  reduce(Text key, Iterator<IntWritable> values,

                OutputCollector<Text, IntWritable> output, Reporter reporter)

                throws  IOException

        {

            int  sum =  0 ;

            while  (values.hasNext())

            {

                sum += values.next().get();

            }

            output.collect(key, new  IntWritable(sum));

        }

    }  

    public   static   void  main(String[] args)  throws  Exception

    {

        JobConf conf = new  JobConf(WordCount. class );

        conf.setJobName("wordcount" ); 

        conf.setOutputKeyClass(Text.class );

        conf.setOutputValueClass(IntWritable.class );

        conf.setMapperClass(Map.class );

        conf.setCombinerClass(Reduce.class );

        conf.setReducerClass(Reduce.class ); 

        conf.setInputFormat(TextInputFormat.class );

        conf.setOutputFormat(TextOutputFormat.class );

        FileInputFormat.setInputPaths(conf, new  Path(args[ 0 ]));

        FileOutputFormat.setOutputPath(conf, new  Path(args[ 1 ]));  

        JobClient.runJob(conf);

    }

}

编译命令：

mkdir Myjava

javac -classpath hadoop-core-1.1.2.jar -d Myjava WordCount.java

jar -cvf WordCount.jar -C Myjava .

运行命令：

bin/hadoop jar WordCount.jar com.my.WordCount /src/test.txt /output

这一次的是基于hadoop 1.1.2程序。

一个可以跑的Hadoop的WordCount程序的更多相关文章

Hadoop下WordCount程序
一.前言在之前我们已经在 CenOS6.5 下搭建好了 Hadoop2.x 的开发环境.既然环境已经搭建好了,那么现在我们就应该来干点正事嘛!比如来一个Hadoop世界的HelloWorld,也就是 ...
Hadoop中wordcount程序
一.测试过程中输入命令: 首先需要在hadoop集群中添加文件可以首先进行查看hadoop集群中文件目录 hadoop fs -ls / hadoop fs -ls -R / hadoop fs ...
Eclipse上运行第一个Hadoop实例 - WordCount(单词统计程序)
需求计算出文件中每个单词的频数.要求输出结果按照单词的字母顺序进行排序.每个单词和其频数占一行,单词和频数之间有间隔. 比如,输入两个文件,其一内容如下: hello world hello had ...
第六篇：Eclipse上运行第一个Hadoop实例 - WordCount(单词统计程序)
需求计算出文件中每个单词的频数.要求输出结果按照单词的字母顺序进行排序.每个单词和其频数占一行,单词和频数之间有间隔. 比如,输入两个文件,其一内容如下: hello world hello had ...
Hadoop入门实践之从WordCount程序说起
这段时间需要学习Hadoop了,以前一直听说Hadoop,但是从来没有研究过,这几天粗略看完了<Hadoop实战>这本书,对Hadoop编程有了大致的了解.接下来就是多看多写了.以Hado ...
Hadoop集群测试wordcount程序
一.集群环境搭好了,我们来测试一下吧 1.在java下创建一个wordcount文件夹:mkdir wordcount 2.在此文件夹下创建两个文件,比如file1.txt和file2.txt 在fi ...
Hadoop学习笔记（1）:WordCount程序的实现与总结
开篇语: 这几天开始学习Hadoop,花费了整整一天终于把伪分布式给搭好了,激动之情无法言表······ 搭好环境之后,按着书本的代码,实现了这个被誉为Hadoop中的HelloWorld的程序--W ...
hadoop学习笔记——用python写wordcount程序
尝试着用3台虚拟机搭建了伪分布式系统,完整的搭建步骤等熟悉了整个分布式框架之后再写,今天写一下用python写wordcount程序(MapReduce任务)的具体步骤. MapReduce任务以来H ...
Hadoop WordCount程序
一.把所有Hadoop的依赖jar包导入buildpath,不用一个一个调,都导一遍就可以,因为是一个工程,所以覆盖是没有问题的二.写wordcount程序 1.工程目录结构如下: 2.写mappe ...

随机推荐

Linux下SVN安装配置全程实录(转)
一.安装SVN默认安装到/usr/local/bin下面二.创建仓库 svnadmin create /home/svnrepo /root/svnrepo为所创建仓库的路径,理论上可以是任何目录 ...
读书笔记：《为什么大猩猩比专家高明, How We Decide》
读书笔记:<为什么大猩猩比专家高明, How We Decide> 英文的书名叫<How We Decide>,可能是出版社的原因,非要弄一个古怪的中文书名<为什么大猩猩 ...
从后台绑定数据到ligerui 的comboBox下拉框组件
这次来记录一下ligerUI的comboBox下拉框组件,ligerUI的API里也有相关描写叙述,上面都是前台写死数据,然后显示在组件中,我这次要说的是将后台的数据绑定到下拉框组件中,废话不多说. ...
Driver 初始化顺序
Linux系统使用两种方式去加载系统中的模块:动态和静态. 静态加载:将所有模块的程序编译到Linux内核中,由do_initcall函数加载核心进程(/init/main.c)kernel_ini ...
Codeforces 191 C Fools and Roads (树链拆分)
主题链接~~> 做题情绪:做了HDU 5044后就感觉非常easy了. 解题思路: 先树链剖分一下,把树剖分成链,由于最后全是询问,so~能够线性操作.经过树链剖分后,就会形成很多链,可是每条边 ...
字符串拼接拆分 NameValueCollection qscoll = HttpUtility.ParseQueryString(result)
string result = "sms&stat=100&message=发送成功"; string d = HttpUtility.ParseQueryStri ...
Windows Phone开发（29）：隔离存储C
原文:Windows Phone开发(29):隔离存储C 本文是隔离存储的第三节,大家先喝杯咖啡放松,今天的内容也是非常简单,我们就聊一件东东--用户设置. 当然了,可能翻译为应用程序设置合适一些,不 ...
讨论JDK的File.equal()
我们一般比较两个文件中的对象是相同的文件,通常使用java.io.File.equal().这里,equal()是不是文件内容的比较结果为.象是否指向同一个文件. File的equal()方法.实际上 ...
树形dp专辑
hdu 2196 http://acm.hdu.edu.cn/showproblem.php?pid=2196 input 5//5个结点 1 1//表示结点2到结点1有一条权值为1的边 2 1//表 ...
android 4.0 中出错 java.lang.UnsupportedOperationException
在android4.0中画图的时候使用: canvas.clipPath(path, Region.Op.XOR); 报错 java.lang.UnsupportedOperationExcept ...

一个可以跑的Hadoop的WordCount程序

一个可以跑的Hadoop的WordCount程序的更多相关文章

随机推荐

热门专题