mapreduce编程练习（一）简单的练习 WordCount

入门训练：WordCount

问题描述：对一个或多个输入文件中的单词进行计数统计，比如一个文件的输入文件如下

输出格式：

运行代码实例：

package hadoopLearn;

import java.io.IOException;

import java.net.URI;

import java.util.StringTokenizer;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.conf.Configured;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.DoubleWritable;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import org.apache.hadoop.util.Tool;

import org.apache.hadoop.util.ToolRunner;

import org.apache.hadoop.yarn.webapp.hamlet.Hamlet.P;

public class WordCount extends Configured implements Tool {

	private static double count = 0; 

	public static class CountMapper extends Mapper<LongWritable, Text, Text, LongWritable>{

		private Text word = new Text();

		private LongWritable one = new LongWritable(1);

		@Override

		protected void map(LongWritable key,Text value,Mapper<LongWritable, Text, Text, LongWritable>.Context context)

				throws IOException,InterruptedException{

					System.out.println("line pos:" + key.toString());

					String line = value.toString();

					StringTokenizer tokenizer = new StringTokenizer(line);

					while (tokenizer.hasMoreElements()) {

						count ++;

						word.set(tokenizer.nextToken());

						context.write(word, one);

					}

				}

	}

	public static class CountReducer extends Reducer<Text, LongWritable, Text, DoubleWritable>{

		private DoubleWritable result = new DoubleWritable();

		@Override

		protected void reduce(Text key, Iterable<LongWritable> values,

				Reducer<Text, LongWritable, Text, DoubleWritable>.Context context) throws IOException, InterruptedException {

			int sum = 0;

			for(LongWritable v : values){

				sum += v.get();

			}

			result.set(sum);

			context.write(key, result);

		}

	}

	static FileSystem fs = null;

	static Configuration conf=null;

	public static void init() throws Exception{

		//读取classpath下的xxx-site.xml 配置文件，并解析其内容，封装到conf对象中

		conf = new Configuration();

		//也可以在代码中对conf中的配置信息进行手动设置，会覆盖掉配置文件中的读取的值

		conf.set("fs.defaultFS", "hdfs://192.168.41.136:9000/");

		//根据配置信息，去获取一个具体文件系统的客户端操作实例对象

		 fs = FileSystem.get(new URI("hdfs://192.168.41.136:9000/"),conf,"hadoop");

	}

	public int run(String[] args) throws Exception {

		Job job = Job.getInstance(getConf(),"WordCount");

		job.setJarByClass(WordCount.class);

		job.setMapperClass(CountMapper.class);

		job.setReducerClass(CountReducer.class);

		job.setOutputKeyClass(Text.class);

		job.setOutputValueClass(LongWritable.class);

		Path in = new Path("/WordCount/input");

		if(fs.exists(in)){

			FileInputFormat.addInputPath(job, in);

		}else{

			System.out.println("输入文件不存在！");

		}

		Path os = new Path("/WordCount/output");

		int flage = 0;

		if(fs.exists(os)){

			System.out.println("输出文件已经存在！重新新建路径！");

			 fs.delete(os, true);

			 FileOutputFormat.setOutputPath(job, os);

			 flage = job.waitForCompletion(false) ? 0:1;

		}else{

			FileOutputFormat.setOutputPath(job, os);

			flage = job.waitForCompletion(false) ? 0:1;

		}

		return  flage;

	}

	public static void main(String[] args) throws Exception {

		init();

		int res = ToolRunner.run(new WordCount(), args);

		System.exit(res);

	}

}

mapreduce编程练习（一）简单的练习 WordCount的更多相关文章

hadoop2.2编程：使用MapReduce编程实例（转）
原文链接:http://www.cnblogs.com/xia520pi/archive/2012/06/04/2534533.html 从网上搜到的一篇hadoop的编程实例,对于初学者真是帮助太大 ...
MapReduce编程模型简介和总结
MapReduce应用广泛的原因之一就是其易用性,提供了一个高度抽象化而变得非常简单的编程模型,它是在总结大量应用的共同特点的基础上抽象出来的分布式计算框架,在其编程模型中,任务可以被分解成相互独立的 ...
MapReduce编程解析
MapReduce编程模型之案例 wordcount 输入数据 atguigu atguiguss sscls clsjiaobanzhangxuehadoop 输出数据 atguigu 2banzh ...
MapReduce编程基础
MapReduce编程基础 1. WordCount示例及MapReduce程序框架 2. MapReduce程序执行流程 3. 深入学习MapReduce编程(1) 4. 参考资料及代码下载 & ...
MapReduce编程实例4
MapReduce编程实例: MapReduce编程实例(一),详细介绍在集成环境中运行第一个MapReduce程序 WordCount及代码分析 MapReduce编程实例(二),计算学生平均成绩 ...
MapReduce编程实例3
MapReduce编程实例: MapReduce编程实例(一),详细介绍在集成环境中运行第一个MapReduce程序 WordCount及代码分析 MapReduce编程实例(二),计算学生平均成绩 ...
mapreduce编程--（准备篇）
mapreduce编程准备学习mapreduce编程之前需要做一些概念性的了解,这是做的一些课程学习笔记,以便以后时不时的翻出来学习下,之前看过一篇文章大神们都是时不时的翻出基础知识复习下,我也做点 ...
批处理引擎MapReduce编程模型
批处理引擎MapReduce编程模型作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. MapReduce是一个经典的分布式批处理计算引擎,被广泛应用于搜索引擎索引构建,大规模数据处理 ...
《Data-Intensive Text Processing with mapReduce》读书笔记之二：mapreduce编程、框架及运行
搜狐视频的屌丝男士第二季大结局了,惊现波多野老师,怀揣着无比鸡冻的心情啊,可惜随着剧情的推进发展,并没有出现期待中的屌丝奇遇,大鹏还是没敢冲破尺度的界线.想百度些种子吧,又不想让电脑留下污点证据,要知 ...
MapReduce 编程模型
一.简单介绍 1.MapReduce 应用广泛的原因之中的一个在于它的易用性.它提供了一个因高度抽象化而变得异常简单的编程模型. 2.从MapReduce 自身的命名特点能够看出,MapReduce ...

随机推荐

[ABP教程]第七章作者:数据库集成
Web开发教程7 作者:数据库集成关于此教程在这个教程系列中,你将要构建一个基于ABP框架的应用程序 Acme.BookStore.这个应用程序被用于甘丽图书页面机器作者.它将用以下开发技术: E ...
风炫安全Web安全学习第十六节课高权限sql注入getshell
风炫安全Web安全学习第十六节课高权限sql注入getshell sql高权限getshell 前提条件: 需要知道目标网站绝对路径目录具有写的权限需要当前数据库用户开启了secure_file ...
ICMP协议概述
• ICMP是三层协议,和IP.ARP.ICMP同属三层 • IP协议中的6是代表上层的TCP协议,17代表UDP协议,1代表同层的ICMP协议 • ICMP协议主要用来探测 ...
记一次Goroutine与wg导致的问题
前言今天发现了一个问题是之前一直没有注意到的,这里记一下正文 Send Closed Chan 问题概述代码逻辑是启动时启动多个 channel, channel1 获取数据监听数据处理后发送给 ...
Docker学习笔记之Dockerfile
Dockerfile的编写格式为<命令><形式参数>,命令不区分大小写,但一般使用大写字母.Docker会依据Dockerfile文件中编写的命令顺序依次执行命令.Docker ...
终于可以愉快的撸Java异步代码了!
异步响应式编程可以极大的提高系统的并发呑吐量,但由于Java没有类似于其他语言的Async/Await机制,所以只能通过CompletableFuture.thenXXX()来串联各个异步任务,这 ...
zabbix_server上的问题
不要写成127.0.0.1,要不然一直包zabbix agent没有启动.
bat批处理积累
1 ::所有命令不回显,包含echo off自身也不回显 2 @echo off 3 4 ::rem或双冒号都为注释行 5 6 rem 变量赋值,注意变量和等号之间不能有空格,等号后的空格会作为变量值 ...
好你个C语言，原来还有这么多副面孔！
C语言可以这样比喻,是一门非常强大的内功心法,学会它可以做到一法通万法.这也是它至今不衰的原因.说了这么多C语言的优点,现在来说说它的缺点.C语言最大的优点也是它最大的缺点,拥有强大的力量时应时刻保持 ...
Python赋值、浅复制和深复制
Python赋值.浅复制和深复制首先我们需要知道赋值和浅复制的区别: 赋值和浅复制的区别赋值,当一个对象赋值给另一个新的变量时,赋的其实是该对象在栈中的地址,该地址指向堆中的数据.即赋值后,两 ...

mapreduce编程练习（一）简单的练习 WordCount

mapreduce编程练习（一）简单的练习 WordCount的更多相关文章

随机推荐

热门专题