在hadoop上进行编写mapreduce程序，统计关键词在text出现次数

mapreduce的处理过程分为2个阶段，map阶段，和reduce阶段。在要求统计指定文件里的全部单词的出现次数时。

map阶段把每一个关键词写到一行上以逗号进行分隔。并初始化数量为1（同样的单词hadoop中的map会自己主动放到一行中）

reduce阶段是把每一个单词出现的频率统计出来又一次写回去。

如代码：

package com.clq.hadoop2;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Mapper;

public class MyMapper extends Mapper<LongWritable, Text, Text, IntWritable> {

	final Text key2 = new Text();

	// value2 表示单词在该行中的出现次数

	final IntWritable value2 = new IntWritable(1);

	// key 表示文本行的起始位置

	// value 表示文本行

	protected void map(LongWritable key, Text value, Context context)

			throws java.io.IOException, InterruptedException {

		final String[] splited = value.toString().split(",");

		for (String word : splited) {

			key2.set(word);

			// 把key2、value2写入到context中

			context.write(key2, value2);

		}

	}

}

package com.clq.hadoop2;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Reducer;

public class MyReducer extends Reducer<Text, IntWritable, Text, IntWritable> {

	// value3表示单词出现的总次数

	final IntWritable value3 = new IntWritable(0);

	/**

	 * key 表示单词 values 表示map方法输出的1的集合 context 上下文对象

	 */

	protected void reduce(Text key, java.lang.Iterable<IntWritable> values,

			Context context) throws java.io.IOException, InterruptedException {

		int sum = 0;

		for (IntWritable count : values) {

			sum += count.get();

		}

		// 运行到这里，sum表示该单词出现的总次数

		// key3表示单词，是最后输出的key

		final Text key3 = key;

		// value3表示单词出现的总次数，是最后输出的value

		value3.set(sum);

		context.write(key3, value3);

	}

}

package com.clq.hadoop2;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapred.lib.HashPartitioner;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;

public class MapperReducer {

	public static void main(String[] args) throws IOException,

			InterruptedException, ClassNotFoundException {

	        //指定输入和输出路径

		final String INPUT_PATH = "hdfs://ubuntu:9000/Input";

		final String OUTPUT_PATH = "hdfs://ubuntu:9000/output";

		//创建一个job对象封装执行时所须要的信息

		final Job job = new Job(new Configuration(),"MapperReducer");

		//打成jar执行

		job.setJarByClass(MapperReducer.class);

		FileInputFormat.setInputPaths(job, INPUT_PATH);

		FileOutputFormat.setOutputPath(job, new Path(OUTPUT_PATH));

		//指定自己自定义的mapper类

		job.setMapperClass(MyMapper.class);

		//指定执行mapper类型

		job.setMapOutputKeyClass(Text.class);

		job.setMapOutputValueClass(IntWritable.class);

		//指定自定义的reducer类

		job.setReducerClass(MyReducer.class);

		//指定reducer的key和value类型

		job.setInputFormatClass(TextInputFormat.class);

		job.setOutputFormatClass(TextOutputFormat.class);

		job.waitForCompletion(true);

	}

}

在hadoop上进行编写mapreduce程序，统计关键词在text出现次数的更多相关文章

hive--构建于hadoop之上、让你像写SQL一样编写MapReduce程序
hive介绍什么是hive? hive:由Facebook开源用于解决海量结构化日志的数据统计 hive是基于hadoop的一个数据仓库工具,可以将结构化的数据映射为数据库的一张表,并提供类SQL查 ...
Eclipse下使用Hadoop单机模式调试MapReduce程序
在单机模式下Hadoop不会使用HDFS,也不会开启任何Hadoop守护进程,所有程序将在一个JVM上运行并且最多只允许拥有一个reducer 在Eclipse中新创建一个hadoop-test的Ja ...
如何在maven项目里面编写mapreduce程序以及一个maven项目里面管理多个mapreduce程序
我们平时创建普通的mapreduce项目,在遍代码当你需要导包使用一些工具类的时候, 你需要自己找到对应的架包,再导进项目里面其实这样做非常不方便,我建议我们还是用maven项目来得方便多了话不多说 ...
高可用Hadoop平台－运行MapReduce程序
1.概述最近有同学反应,如何在配置了HA的Hadoop平台运行MapReduce程序呢?对于刚步入Hadoop行业的同学,这个疑问却是会存在,其实仔细想想,如果你之前的语言功底不错的,应该会想到自动 ...
攻城狮在路上（陆）-- 配置hadoop本地windows运行MapReduce程序环境
本文的目的是实现在windows环境下实现模拟运行Map/Reduce程序.最终实现效果:MapReduce程序不会被提交到实际集群,但是运算结果会写入到集群的HDFS系统中. 一.环境说明: ...
编写第一个MapReduce程序—— 统计气温
摘要:hadoop安装完成后,像学习其他语言一样,要开始写一个“hello world!” ,看了一些学习资料,模仿写了个程序.对于一个C#程序员来说,写个java程序,并调用hadoop的包,并跑在 ...
Hadoop 中文编码相关问题 -- mapreduce程序处理GBK编码数据并输出GBK编码数据（转）
hadoop的hdfs文件系统中,默认的是utf-8, 故你上传的文件是要设置成utf-8.当输入的是gbk,有该如何? 输入是GBK文件, 输出也是 GBK 文件的示例代码: Hadoop处理GBK ...
【Hadoop测试程序】编写MapReduce测试Hadoop环境
我们使用之前搭建好的Hadoop环境,可参见: <[Hadoop环境搭建]Centos6.8搭建hadoop伪分布模式>http://www.cnblogs.com/ssslinppp/p ...
Hadoop通过HCatalog编写Mapreduce任务访问hive库中schema数据
1.dirver package com.kangaroo.hadoop.drive; import java.util.Map; import java.util.Properties; impor ...

随机推荐

cocos2d-html5 Layer 和 Scene 创建模式
var myLayer = cc.Layer.extend({ init:function() {//2 界面 var bRet = false; if (this._super()) { bRet ...
JAVA大数类练手
今天突然看到了OJ上的大数类题目,由于学习了一点大数类的知识.果断水了6道题......都是非常基础的.就当的练手的吧. 学到的只是一些大数类的基本操作.以后多做点这样的题,争取熟练运用水大数题... ...
【HDOJ】1022 Train Problem I
栈和队列训练题目. #include <stdio.h> #include <string.h> #define MAXNUM 1005 char in[MAXNUM]; ch ...
【HDOJ】1050 Moving Tables
贪心问题,其实我觉得贪心就是合理的考虑最优情况,证明贪心可行即可.这题目没话多久一次ac.这道题需要注意房间号的奇偶性.1 3.2 4的测试数据.答案应该为20. #include <stdio ...
hadoop2.2编程：MRUnit
examples: Overview This document explains how to write unit tests for your map reduce code, and test ...
win7 64位系统 pl/sql 无法解析指定的连接标识符解决办法
我用的是win764位,装好后,装了pl/sql 和toad,都连不上数据库,报错位“无法解析指定的连接标识符” 解决办法,经过研究发现安装目录有问题.默认会安装在“C:\Program Files ...
ADO.NET——获取output 和 return值
程序代码 //存储过程 //Create PROCEDURE MYSQL // @a int, // @b int //AS // return @a + @b //GO SqlConnection ...
[转]ASP.NET MVC 入门3、Routing
在一个route中,通过在大括号中放一个占位符来定义( { and } ).当解析URL的时候,符号"/"和"."被作为一个定义符来解析,而定义符之间的值则匹配 ...
Azure 虚拟机常见问题-上
在 Azure 虚拟机上可以运行什么? 所有订户均可在 Azure 虚拟机上运行服务器软件.此外,MSDN 订户还可以访问由 Azure 提供的特定 Windows 客户端映像. 就服务器软件来说,你 ...
Centos添加硬盘分区、挂载磁盘
默认一个硬盘,新增硬盘识别为sdb.sdbc一次类推 1.查看磁盘信息 >fdisk -l #新磁盘为/dev/sdb,截图是已经分区完成了. 2.进入分区界面 >fdisk /dev/s ...

在hadoop上进行编写mapreduce程序，统计关键词在text出现次数

在hadoop上进行编写mapreduce程序，统计关键词在text出现次数的更多相关文章

随机推荐

热门专题