hadoop mapreduce 简单例子

本例子统计用空格分开的单词出现数量（这个Main.mian 启动方式是hadoop 2.0 的写法。1.0 不一样）

目录结构：

使用的 maven ：下面是maven 依赖。

<dependency>

            <groupId>org.apache.hadoop</groupId>

            <artifactId>hadoop-client</artifactId>

            <version>2.8.5</version>

        </dependency>

Main.java:

package com.zyk.test;

import java.io.IOException;

import java.util.ArrayList;

import java.util.List;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import org.apache.hadoop.util.GenericOptionsParser;

public class Main {

	public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {

		Configuration conf = new Configuration();

		GenericOptionsParser optionParser = new GenericOptionsParser(conf, args);

		String[] remainingArgs = optionParser.getRemainingArgs();

		if ((remainingArgs.length != 2) && (remainingArgs.length != 4)) {

			System.err.println("Usage: wordcount <in> <out> [-skip skipPatternFile]");

			System.exit(2);

		}

		Job job = Job.getInstance(conf, "word count");

		job.setJarByClass(Main.class);

		job.setMapperClass(WordMap.class);

		// job.setCombinerClass(IntSumReducer.class);

		job.setReducerClass(WordReduce.class);

		job.setOutputKeyClass(Text.class);

		job.setOutputValueClass(LongWritable.class);

		//FileInputFormat.addInputPath(job, new Path("/wd/in"));

		//FileOutputFormat.setOutputPath(job, new Path("/wd/out"));

		List<String> otherArgs = new ArrayList<String>();

		for (int i = 0; i < remainingArgs.length; ++i) {

			if ("-skip".equals(remainingArgs[i])) {

				job.addCacheFile(new Path(remainingArgs[++i]).toUri());

				job.getConfiguration().setBoolean("wordcount.skip.patterns", true);

			} else {

				otherArgs.add(remainingArgs[i]);

			}

		}

		FileInputFormat.addInputPath(job, new Path(otherArgs.get(0)));

		FileOutputFormat.setOutputPath(job, new Path(otherArgs.get(1)));

		System.exit(job.waitForCompletion(true) ? 0 : 1);

	}

}

WordMap.java

package com.zyk.test;

import java.io.IOException;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Mapper;

public class WordMap extends Mapper<LongWritable, Text, Text, LongWritable> {

	@Override

	protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, Text, LongWritable>.Context context)throws IOException, InterruptedException {

		String[] words =  value.toString().split(" ");

		for(String word : words) {

			context.write (new Text( word ), new LongWritable( 1 ) );

		}

	}

}

WordReduce.java

package com.zyk.test;

import java.io.IOException;

import java.util.Iterator;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Reducer;

public class WordReduce extends Reducer<Text, LongWritable, Text, LongWritable > {

	@Override

	protected void reduce(Text key, Iterable<LongWritable> arg1,Reducer<Text, LongWritable, Text, LongWritable>.Context context) throws IOException, InterruptedException {

		Iterator<LongWritable> its =	arg1.iterator();

		long sum = 0L;

		while( its.hasNext() ) {

			LongWritable it = its.next();

			sum += it.get();

		}

		context.write( key ,  new LongWritable( sum ) );

	}

}

content.txt 是要上传到hdfs 上作为输入参数目录的，内容我就不提提供了。随便找个页面复制一些文本就可以。

然后打成 jar 包。发布到hadoop 上运行。（后面两个参数是指定的输入和输出路径）运行前应该吧要统计的文件复制到 hdfs 的 /wd/in 目录里面。

./hadoop jar /tools/wd.jar com.zyk.test.Main /wd/in /wd/out4

运行结果：

part-r-00000 打开结果：

hadoop mapreduce 简单例子的更多相关文章

Hadoop RPC简单例子
jdk中已经提供了一个RPC框架-RMI,但是该PRC框架过于重量级并且可控之处比较少,所以Hadoop RPC实现了自定义的PRC框架. 同其他RPC框架一样,Hadoop RPC分为四个部分: ( ...
hadoop学习第四天-Writable和WritableComparable序列化接口的使用&&MapReduce中传递javaBean的简单例子
一. 为什么javaBean要继承Writable和WritableComparable接口? 1. 如果一个javaBean想要作为MapReduce的key或者value,就一定要实现序列化,因为 ...
Hadoop MapReduce执行过程详解（带hadoop例子）
https://my.oschina.net/itblog/blog/275294 摘要: 本文通过一个例子,详细介绍Hadoop 的 MapReduce过程. 分析MapReduce执行过程 Map ...
Hadoop MapReduce例子-新版API多表连接Join之模仿订单配货
文章为作者原创,未经许可,禁止转载. -Sun Yat-sen University 冯兴伟一. 项目简介: 电子商务的发展以及电商平台的多样化,类似于京东和天猫这种拥有过亿用户的在线购 ...
简单的java Hadoop MapReduce程序(计算平均成绩)从打包到提交及运行
[TOC] 简单的java Hadoop MapReduce程序(计算平均成绩)从打包到提交及运行程序源码 import java.io.IOException; import java.util. ...
三.hadoop mapreduce之WordCount例子
目录: 目录见文章1 这个案列完成对单词的计数,重写map,与reduce方法,完成对mapreduce的理解. Mapreduce初析 Mapreduce是一个计算框架,既然是做计算的框架,那么表现 ...
hadoop —— MapReduce例子（数据去重）
参考:http://eric-gcm.iteye.com/blog/1807468 例子1: 概要:数据去重描述:将file1.txt.file2.txt中的数据合并到一个文件中的同时去掉重复的内容 ...
hadoop自带例子SecondarySort源码分析MapReduce原理
这里分析MapReduce原理并没用WordCount,目前没用过hadoop也没接触过大数据,感觉,只是感觉,在项目中,如果真的用到了MapReduce那待排序的肯定会更加实用. 先贴上源码 pac ...
hadoop —— MapReduce例子（求平均值）
参考:http://eric-gcm.iteye.com/blog/1807468 math.txt: 张三 88 李四 99 王五 66 赵六 77 china.txt: 张三 78 李四 89 王 ...

随机推荐

DM浅尝辄止
都是大佬的笔记啊啊啊啊 dialog management 对话状态维护(dialog state tracking, DST) 生成系统决策(dialog policy) 系统行为(dialog a ...
L268 A terrifying look at the consequences of climate change
Climate change is a devilish problem for humanity: at once urgent and slow-moving, immediate and dis ...
kbmMWLog输出日志到控制台或指定Grid
刚看到有人在kbmMW News问,有没有简单的方法,输出日志到Console窗口或者一个实际的Grid? 作者对此做回复,大意是这样: 对于输出日志到一个Memo,使用TkbmMWStringsLo ...
mysql'密码安全
MYSQL数据库的安全配置 MYSQL密码的修改与恢复 MYSQL数据库密码的修改 Mysql5.7以下默认root登录密码为空,安装完成之后首先需要修改root的登录密码. # mysqladm – ...
POJ 3461 Oulipo（KMP裸题）
Description The French author Georges Perec (1936–1982) once wrote a book, La disparition, without t ...
python3+requests：get/post请求
1.get请求 (1)没有请求参数类型 response = requests.get(url='') print(response.text) (2)有请求参数的类型(键值对形式表示参数) resp ...
[LeetCode&Python] Problem 206. Reverse Linked List
Reverse a singly linked list. Example: Input: 1->2->3->4->5->NULL Output: 5->4-> ...
相对和绝对路径 mkdir cd rm 等命令
1. 绝对路径和相对路径个人理解: 绝对路径-----即从根目录开始一直到你需要找的文件或目录的路径 (即任何情况下都以根目录为起点) 相对路径------即从当前目录开始一直找到你需要找的 ...
安装Ubuntu16.04与windows10双系统后，如何修改启动默认设置
在安装了Ubuntu16.04系统之后,系统会默认自启动Ubuntu16.04,而我们大多数情况下可能都在使用windows系统,不修改默认设置,不经意间便会启动了Ubuntu16.04,通过我的经历 ...
C++学习（五）（C语言部分）之运算符
运算符学习时的笔记(其实也没什么用,留着给自己看的) 运算符用来对数据运算的符号优先级 3+4*5+6 先乘除然后加减运算符优先级高就先算 40多个运算符 15层优先级不需要背 1.查表 2 ...

hadoop mapreduce 简单例子

hadoop mapreduce 简单例子的更多相关文章

随机推荐

热门专题