通过本篇MapReduce分析模型。深化MapReduce理解模型；和演示MapReduc进入编程模型是常用格类型和输出格公式，在这些经常使用格外公式，我们能够扩大他们的投入格公式，实例：们须要把Mongo数据作为输入，能够通过扩展InputFormat、InputSplit的方式实现。

MapReduce模型深入了解

我们已经知道：map和reduce函数的输入和输出是键值对，以下，我们開始先对这个模型进行深入了解。

首先。分析一个默认的MapReduce作业程序。

（1）一个最简单的MapReduce程序

import org.apache.hadoop.conf.Configured;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.mapred.FileInputFormat;

import org.apache.hadoop.mapred.FileOutputFormat;

import org.apache.hadoop.mapred.JobClient;

import org.apache.hadoop.mapred.JobConf;

import org.apache.hadoop.util.Tool;

import org.apache.hadoop.util.ToolRunner;

public class MinimalMapReduce extends Configured implements Tool {

	@Override

	public int run(String[] args) throws Exception {

		JobConf conf = new JobConf(getConf(), getClass());

		FileInputFormat.addInputPath(conf, new Path("/test/input/t"));

		FileOutputFormat.setOutputPath(conf, new Path("/test/output/t"));

		JobClient.runJob(conf);

		return 0;

	}

	public static void main(String[] args) throws Exception {

		int exitCode = ToolRunner.run(new MinimalMapReduce(), args);

		System.exit(exitCode);

	}

}

（2）功能同上，默认值显示设置

import org.apache.hadoop.conf.Configured;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapred.FileInputFormat;

import org.apache.hadoop.mapred.FileOutputFormat;

import org.apache.hadoop.mapred.JobClient;

import org.apache.hadoop.mapred.JobConf;

import org.apache.hadoop.mapred.MapRunner;

import org.apache.hadoop.mapred.TextInputFormat;

import org.apache.hadoop.mapred.TextOutputFormat;

import org.apache.hadoop.mapred.lib.HashPartitioner;

import org.apache.hadoop.mapred.lib.IdentityMapper;

import org.apache.hadoop.mapred.lib.IdentityReducer;

import org.apache.hadoop.util.Tool;

import org.apache.hadoop.util.ToolRunner;

public class MinimalMapReduceWithDefaults extends Configured implements Tool {

	@Override

	public int run(String[] args) throws Exception {

		JobConf conf = new JobConf(getConf(), getClass());

		FileInputFormat.addInputPath(conf, new Path("/test/input/t"));

		FileOutputFormat.setOutputPath(conf, new Path("/test/output/t"));

		conf.setInputFormat(TextInputFormat.class);

		conf.setNumMapTasks(1);

		conf.setMapperClass(IdentityMapper.class);

		conf.setMapRunnerClass(MapRunner.class);

		conf.setMapOutputKeyClass(LongWritable.class);

		conf.setMapOutputValueClass(Text.class);

		conf.setPartitionerClass(HashPartitioner.class);

		conf.setNumReduceTasks(1);

		conf.setReducerClass(IdentityReducer.class);

		conf.setOutputKeyClass(LongWritable.class);

		conf.setOutputValueClass(Text.class);

		conf.setOutputFormat(TextOutputFormat.class);

		JobClient.runJob(conf);

		return 0;

	}

	public static void main(String[] args) throws Exception {

		int exitCode = ToolRunner.run(new MinimalMapReduceWithDefaults(), args);

		System.exit(exitCode);

	}

}

输入分片

一个输入分片（split）就是由单个map处理的输入块。

MapReduce应用开发者不须要直接处理InputSplit，由于它是由InputFormat创建的。

InputFormat 负责产生输入分片并将它们切割成记录。

怎样控制分片的大小

避免切分

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.mapred.TextInputFormat;

public class NoSplittableTextInputFormat extends TextInputFormat {

	@Override

	protected boolean isSplitable(FileSystem fs,Path file)

	{

		return false;

	}

}

把整个文件作为一条记录处理

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.FSDataInputStream;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.BytesWritable;

import org.apache.hadoop.io.IOUtils;

import org.apache.hadoop.io.NullWritable;

import org.apache.hadoop.mapred.FileInputFormat;

import org.apache.hadoop.mapred.FileSplit;

import org.apache.hadoop.mapred.InputSplit;

import org.apache.hadoop.mapred.JobConf;

import org.apache.hadoop.mapred.RecordReader;

import org.apache.hadoop.mapred.Reporter;

public class WholeFileInputFormat extends

		FileInputFormat<NullWritable, BytesWritable> {

	@Override

	protected boolean isSplitable(FileSystem fs, Path file) {

		return false;

	}

	@Override

	public RecordReader<NullWritable, BytesWritable> getRecordReader(

			InputSplit split, JobConf job, Reporter reporter)

			throws IOException {

		return new WholeFileRecordReader((FileSplit) split, job);

	}

}

class WholeFileRecordReader implements

		RecordReader<NullWritable, BytesWritable> {

	private FileSplit fileSplit;

	private Configuration conf;

	private boolean processed = false;

	public WholeFileRecordReader(FileSplit fileSplit, Configuration conf) {

		this.fileSplit = fileSplit;

		this.conf = conf;

	}

	@Override

	public void close() throws IOException {

	}

	@Override

	public NullWritable createKey() {

		return NullWritable.get();

	}

	@Override

	public BytesWritable createValue() {

		return new BytesWritable();

	}

	@Override

	public long getPos() throws IOException {

		return processed ? fileSplit.getLength() : 0;

	}

	@Override

	public float getProgress() throws IOException {

		return processed ? 1.0f : 0.0f;

	}

	@Override

	public boolean next(NullWritable key, BytesWritable value)

			throws IOException {

		if (!processed) {

			byte[] contents = new byte[(int) fileSplit.getLength()];

			Path file = fileSplit.getPath();

			FileSystem fs = file.getFileSystem(conf);

			FSDataInputStream in = null;

			try {

				in = fs.open(file);

				IOUtils.readFully(in, contents, 0, contents.length);

				value.set(contents, 0, contents.length);

			} finally {

				IOUtils.closeStream(in);

			}

			processed = true;

			return true;

		}

		return false;

	}

}

输入格式

InputFormat类的层次结构

FileInputFormat类

FileInputFormat是全部使用文件作为数据源的InputFormat实现的基类，它提供了两个功能：一个定义哪些文件包括在一个作业的输入中；一个为输入文件生成分片的实现。把分片分割成记录的作业由其子类来完毕。

TextInputFormat

TextInputFormat是默认的InputFormat。每条记录是一行输入。

键是LongWritable类型，存储该行在整个文件里的字节偏移量。值是这行的内容。不包含终止符（换行符和回车符），它是Text类型的。

KeyValueTextInputFormat

通常情况下，文件张的每一行是一个键值对。使用某个分隔符进行分隔。比方制表符。能够通过key.value.separator.in.input.line属性来指定分隔符。它的默认值是一个制表符。

NLineInputFormat

假设希望Map收到固定行数的输入。须要使用NLineInputFormat。

与 TextInputFormat一样。键是文件里行的字节偏移量，值是行本身。mapred.line.input.format.linespermap属性控制N的值。默认是1。

二进制输入

SequenceFileInputFormat、SequenceFileAsTextInputFormat、SequenceFileAsBinaryInputFormat。

多种输入

多个输入，对于每一个输入指定一个Mapper，当然，也能够多种输入格式而仅仅有一个Mapper。

输出格式

OutputFormat类的层次结构

和输入相应，输出大约有例如以下有几种类型：

文本输出、二进制输出、多个输出、延迟输出，数据库输出。

MapReduce在实际编程“I/O”的更多相关文章

MapReduce的核心编程思想
1.MapReduce的核心编程思想 2.yarn集群工作机制 3.maptask并行度与决定机制 4.maptask工作机制 5.MapReduce整体流程 6.shuffle机制 7.yarn架构
Mapreduce的api编程
KEYIN:输入的KEY是maptask所读取到的一行文本的起始偏移量,longVALUEIN:输入的VALUE的类型,输入的VALUE是maptask所读取到的一行文本内容,StringKEYOUT ...
MapReduce(四) 典型编程场景（二）
一.MapJoin-DistributedCache 应用 1.mapreduce join 介绍在各种实际业务场景中,按照某个关键字对两份数据进行连接是非常常见的.如果两份数据都比较小,那么可以 ...
Hadoop学习笔记： MapReduce Java编程简介
概述本文主要基于Hadoop 1.0.0后推出的新Java API为例介绍MapReduce的Java编程模型.新旧API主要区别在于新API(org.apache.hadoop.mapreduce ...
【MapReduce】二、MapReduce编程模型
通过前面的实例,可以基本了解MapReduce对于少量输入数据是如何工作的,但是MapReduce主要用于面向大规模数据集的并行计算.所以,还需要重点了解MapReduce的并行编程模型和运行机制 ...
MapReduce: 一种简化的大规模集群数据处理法
(只有文字没有图,图请参考http://research.google.com/archive/mapreduce.html) MapReduce: 一种简化的大规模集群数据处理法翻译:风里来雨里去 ...
有了Hadoop MapReduce, 为什么还要Spark?
a. 由于MapReduce的shuffle过程需写磁盘,比较影响性能:而Spark利用RDD技术,计算在内存中进行. b. MapReduce计算框架(API)比较局限, 而Spark则是具备灵活性 ...
MapReduce 计算模型
前言本文讲解Hadoop中的编程及计算模型MapReduce,并将给出在MapReduce模型下编程的基本套路. 模型架构在Hadoop中,用于执行计算任务(MapReduce任务)的机器有两个角 ...
基于MapReduce的SimRank++算法研究与实现
一.算法应用背景计算广告学(Computational Advertising)是一门广告营销科学,以追求广告投放的收益最大化为目标,重点解决用户与广告匹配的相关性和广告的竞价模型问题,涉及到自然语 ...

随机推荐

Django写的投票系统4（转）
原文地址:http://www.cnblogs.com/djangochina/archive/2013/06/04/3114269.html 现在已经可以在后台管理投票了,现在就差怎么在前台显示和如 ...
Java 小样例：图书馆课程设计（Java 8 版）
用 Java 模拟一个图书馆.包含创建图书.创建读者.借书.还书.列出全部图书.列出全部读者.列出已借出的图书.列出过期未还的图书等功能. 每一个读者最多仅仅能借 3 本书,每一个书最多仅仅能借 3 ...
Spring实战笔记2---Bean的装配
创建应用对象之间协作关系的行为通常成为装配,该篇的主要内容有两个,一个Spring装配Bean的几种方式以及Spring表达式,事实上这两者是分不开的,在Spring中,对象无需自己负责查找或者创建与 ...
c/c++中main函数参数讲解
参考地址: http://blog.csdn.net/cnctloveyu/article/details/3905720 我们经常用的main函数都是不带参数的.因此main 后的括号都是空括号.实 ...
php-GD库的函数(二)
<?php //imagecopy — 拷贝图像的一部分粘贴到某图像上 /*bool imagecopy ( resource $dst_im , resource $src_im , int ...
解决：Could not find debuginfo pkg for dependency package glibc-2.12-1.132.el6_5.3.i686
场景: (gdb) break main Breakpoint 1 at 0x8048417 (gdb) r Starting program: /usr/local/src/ccode/ch11/s ...
C的xml编程文章链接
官方地址:http://www.xmlsoft.org/ http://hi.baidu.com/singyea/item/ed4d1c335a9527b8633aff82 http://os.chi ...
屏蔽DataGridView控件DataError 事件提示的异常信息
DataGridView.DataError 事件简单介绍: 出现故障.则外部数据分析或验证操作引发异常,或者.当尝试提交数据写入数据源失败. 具体信息:參见MSDN this.dgvState.Da ...
世纪互联、微软Azure与无穷小微积分
今年9月25日,世纪互联正式开通微软Azure商用服务,有感. 我是世纪互联创业历程的见证人(之中的一个),现在看到世纪互联推出微软Azure公有云的商用服务,心 ...
Python入门（转）
Python 简洁的语法和对动态输入的支持,再加上解释性语言的本质, 使得它在大多数平台上的许多领域都是一个理想的脚本语言,特别适用于快速的应用程序开发特点:简单.易学.免费.开源.高层语言.可移植 ...

MapReduce在实际编程“I/O”