MapReduce从输入文件到Mapper处理之间的过程
1、MapReduce代码入口
FileInputFormat.setInputPaths(job, new Path(input)); //设置MapReduce输入格式
job.waitForCompletion(true);
2、InputFormat分析
public abstract class InputFormat<K, V> {
//获取输入文件的分片,仅是逻辑分片,并没有物理分片
public abstract List<InputSplit> getSplits(JobContext context);
//创建RecordReader,从InputSplit中读取数据
public abstract RecordReader<K,V> createRecordReader(InputSplit split,TaskAttemptContext context) ;
}
不同的InputFormat会各自实现不同的文件读取方式以及分片方式,每个输入分片(InputSplit)会被单独的map task作为数据源
3、InputSplit
Mapper的输入是一个一个的输入分片(InputSplit)
public abstract class InputSplit {
public abstract long getLength();
public abstract String[] getLocations();
}
public class FileSplit extends InputSplit implements Writable{
private Path file; //文件路径
private long start; //分片起始位置
private long length; //分片长度
private String[] hosts; //存储分片的hosts
public FileSplit(Path file, long start, long length, String[] hosts) {
this.file = file;
this.start = start;
this.length = length;
this.hosts = hosts;
}
}
一个FileSplit对应Mapper的一个输入文件,不管这个文件有多么的小,也是作为一个单独的InputSplit来处理;
在输入文件是由大量小文件组成的场景下,就会有大量的InputSplit,从而需要大量的Mapper的处理;
大量的Mapper Task创建和销毁开销将是巨大的;可以采用CombineFileSplit将多个小文件进行合并再交由Mapper Task处理;
4、FileInputFormat
public List<InputSplit> getSplits(JobContext job) throws IOException {
/**
* getFormatMinSplitSize() = 1
* job.getConfiguration().getLong(SPLIT_MINSIZE, 1L)
* SPLIT_MINSIZE = "mapreduce.input.fileinputformat.split.minsize"
* mapred-default.xml中参数为0
*/
long minSize = Math.max(getFormatMinSplitSize(), getMinSplitSize(job)); //计算分片的最小值: max(1,0) = 1
/**
* SPLIT_MAXSIZE = "mapreduce.input.fileinputformat.split.maxsize"
* mapred-default.xml中参数为空
*/
long maxSize = getMaxSplitSize(job); //计算分片的最大值:Long.MAX_VALUE
//存储输入文件的分片结果
List<InputSplit> splits = new ArrayList<InputSplit>();
List<FileStatus> files = listStatus(job);
for (FileStatus file: files) {
Path path = file.getPath();
long length = file.getLen();
if (length != 0) {
...
if (isSplitable(job, path)) { //能分片
long blockSize = file.getBlockSize();
long splitSize = computeSplitSize(blockSize, minSize, maxSize);{
//max(1, min(Long.MAX_VALUE, 64M)) = 64M 默认情况下splitSize=blockSize
return Math.max(minSize, Math.min(maxSize, blockSize));
}
//循环分片,当剩余数据与分片大小比值大于Split_Slop时,继续分片,小于等于时,停止分片
long bytesRemaining = length;
while (((double) bytesRemaining)/splitSize > SPLIT_SLOP) { //SPLIT_SLOP = 1.1
int blkIndex = getBlockIndex(blkLocations, length-bytesRemaining);
splits.add(makeSplit(path, length-bytesRemaining, splitSize, blkLocations[blkIndex].getHosts()));
bytesRemaining -= splitSize;
}
//处理余下的数据
if (bytesRemaining != 0) {
int blkIndex = getBlockIndex(blkLocations, length-bytesRemaining);
splits.add(makeSplit(path, length-bytesRemaining, bytesRemaining, blkLocations[blkIndex].getHosts()));
}
} else { // 不可分片,整块返回(有些压缩后是不能分片处理的)
splits.add(makeSplit(path, 0, length, blkLocations[0].getHosts()));
}
} else {
splits.add(makeSplit(path, 0, length, new String[0]));
}
}
job.getConfiguration().setLong(NUM_INPUT_FILES, files.size()); // 设置输入文件数量
LOG.debug("Total # of splits: " + splits.size());
return splits;
}
5、PathFilter
protected List<FileStatus> listStatus(JobContext job) throws IOException {
......
List<PathFilter> filters = new ArrayList<PathFilter>();
filters.add(hiddenFileFilter);
PathFilter jobFilter = getInputPathFilter(job);
if (jobFilter != null) {
filters.add(jobFilter);
}
PathFilter inputFilter = new MultiPathFilter(filters);
......
}
PathFilter文件筛选器接口,使用它我们可以控制哪些文件要作为输入,哪些不作为输入;
PathFilter有一个accept(Path)方法,当接收的Path要被包含进来,就返回true,否则返回false;
public interface PathFilter {
boolean accept(Path path);
}
//过滤掉文件名以_或者.开头的文件
private static final PathFilter hiddenFileFilter = new PathFilter(){
public boolean accept(Path p){
String name = p.getName();
return !name.startsWith("_") && !name.startsWith(".");
}
};
6、RecordReader
RecordReader将InputSplit拆分成KEY-VALUE对
public abstract class RecordReader<KEYIN, VALUEIN> implements Closeable {
//InputSplit初始化
public abstract void initialize(InputSplit split,TaskAttemptContext context) ;
//读取分片下一个<key, value>对
public abstract boolean nextKeyValue() throws IOException, InterruptedException;
//获得当前读取到的KEY
public abstract KEYIN getCurrentKey() throws IOException, InterruptedException;
//获得当前读取到的VALUE
public abstract VALUEIN getCurrentValue() throws IOException, InterruptedException;
//跟踪读取分片的进度
public abstract float getProgress() throws IOException, InterruptedException;
//关闭RecordReader
public abstract void close() throws IOException;
}
7、Mapper
public class Mapper<KEYIN, VALUEIN, KEYOUT, VALUEOUT> {
public abstract class Context implements MapContext<KEYIN,VALUEIN,KEYOUT,VALUEOUT> {
}
//预处理,仅在map task启动时运行一次
protected void setup(Context context) throws IOException, InterruptedException {
}
//对于InputSplit中的每一对<key, value>都会运行一次
protected void map(KEYIN key, VALUEIN value, Context context) throws IOException, InterruptedException {
context.write((KEYOUT) key, (VALUEOUT) value);
}
//扫尾工作,比如关闭流等
protected void cleanup(Context context) throws IOException, InterruptedException {
}
public void run(Context context) throws IOException, InterruptedException {
setup(context);
try {
while (context.nextKeyValue()) {
map(context.getCurrentKey(), context.getCurrentValue(), context);
}
} finally {
cleanup(context);
}
}
}
模板模式的应用:run方法:
1)setup
2)循环从InputSplit中获得到的KV对调用map函数进行处理
3)cleanup
至此完成了MapReduce的输入文件是如何被过滤、分片、读取、读出“K-V对”,然后交给Mapper类来处理
MapReduce从输入文件到Mapper处理之间的过程的更多相关文章
- Hadoop(十七)之MapReduce作业配置与Mapper和Reducer类
前言 前面一篇博文写的是Combiner优化MapReduce执行,也就是使用Combiner在map端执行减少reduce端的计算量. 一.作业的默认配置 MapReduce程序的默认配置 1)概述 ...
- Hadoop Mapreduce分区、分组、二次排序过程详解[转]
原文地址:Hadoop Mapreduce分区.分组.二次排序过程详解[转]作者: 徐海蛟 教学用途 1.MapReduce中数据流动 (1)最简单的过程: map - reduce (2) ...
- hadoop平台上HDFS和MAPREDUCE的功能、工作原理和工作过程
作业要求来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3319 1.用自己的话阐明Hadoop平台上HDFS和MapReduce ...
- 【转】wpa_supplicant与wpa_cli之间通信过程
[转]wpa_supplicant与wpa_cli之间通信过程 转自:http://blog.chinaunix.net/uid-26585427-id-4051479.html wpa_suppli ...
- MapReduce的输入文件是两个
[学习笔记] 1.对于MapReduce程序,如何输入文件是两个文件? 这一小节,我们将继续第一章大数据入门的HelloWorld例子做进一步的研究.这里,我们研究如何输入文件是两个文件.packag ...
- Hadoop学习笔记(老版本,YARN之前),MapReduce任务Namenode DataNode Jobtracker Tasktracker之间的关系
一.基本概念 在MapReduce中,一个准备提交执行的应用程序称为“作业(job)”,而从一个作业划分出的运行于各个计算节点的工作单元称为“任务(task)”.此外,Hadoop提供的分布式文件系统 ...
- 027_编写MapReduce的模板类Mapper、Reducer和Driver
模板类编写好后写MapReduce程序,的模板类编写好以后只需要改参数就行了,代码如下: package org.dragon.hadoop.mr.module; import java.io.IOE ...
- MapReduce(2): How does Mapper work
In the previous post, we've illustrated how Hadoop MapReduce prepares input for Mappers. Long story ...
- 关于Mybatis与Spring整合之后SqlSession与mapper对象之间数量的问题。
1,sqlsession的真实类型和数量 由于使用spring管理bean,当我们在代码中需要使用这个bean的时候,会首先去容器中找,第一次需要调用MapperFactoryBean的getObje ...
随机推荐
- Java 权限修饰符
Java应用有很多类,但有些类并不希望被其他类使用.每个类中都有数据成员和方法成员,但是并不是每个数据和方法,都允许在其他类中调用.如何能做到访问控制呢?就需要使用访问权限修饰符. Java语言中的访 ...
- R(七): R开发实例-map热力图
第四章通过REmap包完成基于map分布图示例,前面提到REmap基于Echart2.0, 一方面在移动终端适应效果差,另一方面REmap提供的热力图仅支持全国及省市大版块map,基于上面的原因,参考 ...
- javascript 对象中的 handleEvent
在高级浏览器中,我们在绑定事件的时候 可以知道绑定一个对象,然后在这个对象中的 handleEvent 方法会自动进入指定的方法,不多说了举个例子吧!! var events = { handleEv ...
- Canvas tutorial
<canvas> 是一种可以通过编写脚本(通常是JavaScript)来实现绘制图形的HTML元素.例如,它能用来绘制图形,制作组合图像或者生成简单的 (偶尔 也不简单) 动画.右边的图像 ...
- FileReader 基本介绍
转自:http://blog.csdn.net/zk437092645/article/details/8745647 用来把文件读入内存,并且读取文件中的数据.FileReader接口提供了一个异步 ...
- android学习笔记19——对话框(DatePickerDialog、TimePickerDialog)
DatePickerDialog.TimePickerDialog ==> DatePickerDialog.TimePickerDialog功能.用法都比较简单,操作步骤: 1.通过new关键 ...
- 解决AD域认证问题—“未知的身份验证机制”
场景: Ad认证登录系统,之前正常.不知服务器调了什么,导致无法登录.提示信息如标题. 解决方案: DirectoryEntry adRoot = new DirectoryEntry("L ...
- SVN分支的合并和同步
使用svn几年了,一直对分支和合并敬而远之,一来是因为分支的管理不该我操心,二来即使涉及到分支的管理,也不敢贸然使用合并功能,生怕合并出了问题对团队造成不良影响,最主要的原因是,自己对分支的目的和合并 ...
- (一)java的由来
java的诞生:每一次设计语言的革新都是为了解决先前语言所遇到的不能解决的问题,B语言导致C语言的诞生,C语言演变成C++,java则继承了这两种语言的大部分特性.java最初的推动力是为了找到一种能 ...
- 黄聪:百度知道中对HTML字符实体、字符编号,&开头字符的使用
http://www.w3school.com.cn/tags/html_ref_entities.html 带有实体名称的 ASCII 实体 结果 描述 实体名称 实体编号 " quota ...