MapReduce执行流程及程序编写

MapReduce

一种分布式计算模型，解决海量数据的计算问题，MapReduce将计算过程抽象成两个函数

Map(映射):对一些独立元素（拆分后的小块）组成的列表的每一个元素进行指定的操作，可以高度并行。

Reduce(化简)：对一个列表的元素进行合并

input -> map -> reduce -> output

数据流通格式<kay,value>

eg:

原始数据				->    map input 				map		map output(reduce input)			shuffle							reduce			reduce output

example example			->    <0,example example>		->		<example,1> <example,1>				->		<example,list(1,1,1)>		->			<example,3>

helo wrold example 		->    <16,helo wrold example>	-> 		<hello,1> <wrold,1> <example,1>		->		<hello,list(1)> <...>		->			<hello,1> <wrold,1>

MapReduce底层执行流程

一.Input

InputFormat

读取数据

转换成<key,value>

FileInputFormat

TextInputFormat 文本初始化，一行变成一个KY对，用偏移量作为Key、

二.Map

ModuleMapper类继承Mapper类

执行map(KEYIN,VALUEIN,KETOUT,VALUEOUT)，

	默认情况下

	KEYIN：LongWritable

	KEYVALUE：TEXT

三.shuffle(洗牌)

map，output<key,value>

a)先存在内存中

b)合并combiner[可选] ->  <hadoop,1> <hadoop,1> =>>  <hadoop,2>

c)spill，溢写到磁盘中，存储成很多小文件，过程如下

	1.分区Partition(数量跟Reduce数量一致)

	2.在分区内进行排序sort

d)合并，Merge	->大文件(Map Task任务运行的机器的本地磁盘中)

e)排序sort

f)压缩[可选]

四.reduce

reduce Task会到Map Task运行的机器上COPY要处理的数据

a)合并merge

b)排序

c)分组Group(相同的key的value放在一起)

ModuleReduceper类继承Reduce类

执行reduce(KEYIN,VALUEIN,KETOUT,VALUEOUT)

	map的输出类型就是reduce的输入类型，中间的shuffle只是进行合并分组排序，不会改变数据类型

五.output

OutputFormat

写数据

FileOutputFormat

TextInputFormat 每个KeyValue对输出一行，key和value之间使用分隔符\t，默认调用key和value的toString方法

代码如下：

package com.cenzhongman.mapreduce;

import java.io.IOException;

import java.util.StringTokenizer;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.conf.Configured;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import org.apache.hadoop.util.Tool;

import org.apache.hadoop.util.ToolRunner;

//继承Configured类，从而继承了该类的getConf();line 81

//实现Tool方法，实现run方法 line79

//通过Toolrunner工具类的run方法实现，setConf(),达到conf传递的效果

public class WordCount extends Configured implements Tool {

	// 1.Map class

	public static class WordcountMapper extends Mapper<LongWritable, Text, Text, IntWritable> {

		private Text mapOutputKey = new Text();

		private final static IntWritable mapOutputValue = new IntWritable(1);

		@Override

		public void map(LongWritable key, Text value, Mapper<LongWritable, Text, Text, IntWritable>.Context context)

				throws IOException, InterruptedException {

			// line value

			String lineValue = value.toString();

			// split

			// String[] strs = lineValue.split(" ");

			StringTokenizer stringTokennizer = new StringTokenizer(lineValue);

			// iterator

			while (stringTokennizer.hasMoreTokens()) {

				// get word value

				String wordValue = stringTokennizer.nextToken();

				// set value

				mapOutputKey.set(wordValue);

				// output

				context.write(mapOutputKey, mapOutputValue);

			}

		}

		@Override

		public void cleanup(Mapper<LongWritable, Text, Text, IntWritable>.Context context)

				throws IOException, InterruptedException {

			// nothing

			// 在执行map之前会执行该函数，可用于JDBC等

			// Reduce同理，不再重复

		}

		@Override

		public void setup(Mapper<LongWritable, Text, Text, IntWritable>.Context context)

				throws IOException, InterruptedException {

			// nothing

			// 在执行map之后会执行该函数，可用于JDBC断开等

		}

	}

	// 2.Reduce class

	public static class WordcountReducer extends Reducer<Text, IntWritable, Text, IntWritable> {

		private IntWritable reduceOutputValue = new IntWritable();

		@Override

		public void reduce(Text key, Iterable<IntWritable> values, Context context)

				throws IOException, InterruptedException {

			// sum tmp

			int sum = 0;

			// iterator

			for (IntWritable value : values) {

				// total

				sum += value.get();

			}

			// set value

			reduceOutputValue.set(sum);

			// output

			context.write(key, reduceOutputValue);

		}

	}

	// 3.driver

	public int run(String[] args) throws Exception {

		// 1.get configuration

		Configuration conf = getConf();

		// 2.create Job

		Job job = Job.getInstance(conf, this.getClass().getSimpleName());

		// run jar

		job.setJarByClass(this.getClass());

		// 3.set job

		// input -> map -> reduce -> output

		// 3.1 input from type

		Path inPath = new Path(args[0]);

		FileInputFormat.addInputPath(job, inPath);

		// 3.2 map

		job.setMapperClass(WordcountMapper.class);

		job.setMapOutputKeyClass(Text.class);

		job.setMapOutputValueClass(IntWritable.class);

		//****************shuffle配置***********************

		//1)Partition分区

//		job.setPartitionerClass(cls);

		//2)sort排序

//		job.setSortComparatorClass(cls);

		//combiner[可选]Map中的合并

//		job.setCombinerClass(cls);

		//Group分组

//		job.setGroupingComparatorClass(cls);

		//压缩设置在配置文件中设置，也可以在conf对象中设置

		//****************shuffle配置***********************

		// 3.3 reduce

		job.setReducerClass(WordcountReducer.class);

		job.setOutputKeyClass(Text.class);

		job.setOutputValueClass(IntWritable.class);

		// 3.4 output

		Path outPath = new Path(args[1]);

		FileOutputFormat.setOutputPath(job, outPath);

		// 4 submit job

		boolean isSuccess = job.waitForCompletion(true);

        	//set reduce number[可选，优化方式之一，默认值为1]配置文件mapreduce.job.reduces

        	job.setNumReduceTasks(2);

		return isSuccess ? 0 : 1;

	}

	public static void main(String[] args) throws Exception {

		Configuration conf = new Configuration();

		//set compress设置压缩方式，可以从官方文件和源码中得到-----可选，优化方式之一

		conf.set("mapreduce.map.output.compress", "true");

		conf.set("mapreduce.map.output.compress.codec", "org.apache.hadoop.io.compress.SnappyCodec");

		// int status = new WordCount().run(args);

		int status = ToolRunner.run(conf, new WordCount(), args);

		System.exit(status);

	}

}

MapReduce执行流程及程序编写的更多相关文章

016_笼统概述MapReduce执行流程结合wordcount程序
数据传输<key,value> File--> <key,value> -->map(key,value) --> mapResult<k ...
mapreduce执行流程
角色描述:JobClient:执行任务的客户端JobTracker:任务调度器TaskTracker:任务跟踪器Task:具体的任务(Map OR Reduce) 从生命周期的角度来看,mapredu ...
2.25-2.26 MapReduce执行流程Shuffle讲解
原文链接:https://langyu.iteye.com/blog/992916 Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方.要想理解MapReduce, Shuffle是 ...
003 01 Android 零基础入门 01 Java基础语法 01 Java初识 03 Java程序的执行流程
003 01 Android 零基础入门 01 Java基础语法 01 Java初识 03 Java程序的执行流程 Java程序长啥样? 首先编写一个Java程序记事本编写程序打开记事本 1.wi ...
一个 Spark 应用程序的完整执行流程
一个 Spark 应用程序的完整执行流程 1.编写 Spark Application 应用程序 2.打 jar 包,通过 spark-submit 提交执行 3.SparkSubmit 提交执行 4 ...
MapReduce架构与执行流程
一.MapReduce是用于解决什么问题的? 每一种技术的出现都是用来解决实际问题的,否则必将是昙花一现,那么MapReduce是用来解决什么实际的业务呢? 首先来看一下MapReduce官方定义: ...
[Hadoop]浅谈MapReduce原理及执行流程
MapReduce MapReduce原理非常重要,hive与spark都是基于MR原理 MapReduce采用多进程,方便对每个任务资源控制和调配,但是进程消耗更多的启动时间,因此MR时效性不高.适 ...
Mybatis入门程序编写
执行原理入门程序编写 1.pom.xml 文件 <dependencies> <dependency> <groupId>mysql</groupId> ...
MapReduce作业的执行流程
MapReduce任务执行总流程一个MapReduce作业的执行流程是:代码编写 -> 作业配置 -> 作业提交 -> Map任务的分配和执行 -> 处理中间结果 -> ...

随机推荐

树莓派安装FLASK服务；并在端网页读取 GPIO状态和系统时间
做过一些物联网的作品:因为不想一直做APP来控制,因为不能每个人都去下载你自己做的APP,浏览器大家都是有的:那么每个人通过浏览器WEB来访问我们服务器,岂不是很简单和方便,采用flask+pytho ...
开涛spring3(4.2) - 资源之 4.2 内置Resource实现
4.2 内置Resource实现 4.2.1 ByteArrayResource ByteArrayResource代表byte[]数组资源,对于“getInputStream”操作将返回一个By ...
java虚拟机学习-JVM调优总结-典型配置举例（10）
以下配置主要针对分代垃圾回收算法而言. 堆大小设置年轻代的设置很关键 JVM中最大堆大小有三方面限制:相关操作系统的数据模型(32-bt还是64-bit)限制:系统的可用虚拟内存限制:系统的可用物理 ...
python之路序列化 pickle,json
运行代码,毫不留情地得到一个TypeError: Traceback (most recent call last): ... TypeError: <__main__.Student obje ...
RabbitMQ 应用学习随笔
1．安装 Rabbit MQ 是建立在强大的Erlang OTP平台上,因此安装RabbitMQ之前要先安装Erlang. erlang:http://www.erlang.org/download. ...
用pickle模块实现“增删改查”的简易功能
pickle的作用: 1:pickle.dump(dict,file)把字典转为二进制存入文件. 2:pickle.load(file)把文件二进制内容转为字典 import pickle # 增 d ...
[python] 1、python鼠标点击、移动事件应用——写一个自动下载百度音乐的程序
1.问题描述: 最近百度总爱做一些破坏用户信任度的事——文库金币变券.网盘限速,吓得我赶紧想办法把存在百度云音乐中的歌曲下载到本地. http://yinyueyun.baidu.com/ 可问题是云 ...
cpp(第十三章）
1.动态(晚期)联编需要显示定义复制构造函数,赋值运算符,虚构函数. 2.纯虚类不能声明对象. 3.赋值运算符的特征标随类而异. 4.返回类型协变,重新定义继承的方法,应确保与原来的原型完全相同,但如 ...
JS阻塞以及CSS阻塞
一.JS阻塞所有的浏览器在下载JS文件的时候,会阻塞页面上的其他活动,包括其他资源的下载以及页面内容的呈现等等,只有当JS下载.解析.执行完,才会进行后面的操作.在现代的浏览器中CSS资源和图片i ...
MySQL基础语法------增删改查
1.增 1.1建立数据库 create database test2; 格式:create database <数据库名> 1.2建表 create table student( sno ...

MapReduce执行流程及程序编写

Map(映射):对一些独立元素（拆分后的小块）组成的列表的每一个元素进行指定的操作，可以高度并行。

Reduce(化简)：对一个列表的元素进行合并

MapReduce底层执行流程

一.Input

InputFormat

FileInputFormat

二.Map

ModuleMapper类继承Mapper类

三.shuffle(洗牌)

map，output<key,value>

四.reduce

reduce Task会到Map Task运行的机器上COPY要处理的数据

ModuleReduceper类继承Reduce类

五.output

OutputFormat

FileOutputFormat

代码如下：

MapReduce执行流程及程序编写的更多相关文章

随机推荐

热门专题