转自:http://www.open-open.com/lib/view/open1453097241308.html

在MapReduce中,一个YARN  应用被称作一个job, MapReduce 框架提供的应用,master的一个实现被称作MRAppMaster

MapReduce Job的时间线

MapReduce Job  运行的时间线:

  • Map Phase:若干 Map Tasks 被执行
  • Reduce Phase: 若干Reduce Tasks 被执行

reduce可能会在map阶段结束之前开始执行,因此上面显示的有重叠的地方。

Map Phase

现在我们集中考察map相,一个关键的问题是一个应用需要多少map任务去运行现在的这个job

用户给了我们什么?

我们退回到之前的一步,当一个用户提交一个应用的时候,若干信息被提供给了YARN ,分别是:

  • 一个配置:这可以是一部分的,因为一些参数不需要用户特别指定,可以有自己的默认值。
  • 一个jar文件,含有一个map,一个combiner,一个reduce
  • 一个输入和输出信息 输入目录 是不是在hdfs上,有多少文件呢?输出的时候,我们存储在哪里

The number of files inside the input directory is used for deciding the number of Map Tasks of a job.
那么,输入的目录中文件的数量决定多少个map会被运行起来

多少个map任务?

应用针对每一个分片运行一个map,一般而言,对于每一个输入的文件会有一个map split。如果输入文件太大,超过了hdfs块的大小(64M)那么对于同一个输入文件我们会有多余2个的map运行起来。下面是FileInputFormat class 的getSplits()的伪代码: 

num_splits = 0
for each input file f:
remaining = f.length
while remaining / split_size > split_slope:
num_splits += 1
remaining -= split_size

where:

split_slope = 1.1 分割斜率
split_size =~ dfs.blocksize 分割大小约等于hdfs块大小

在mapreduce2.0以上版本mapreduce.job.maps 属性会被忽略

MapTask Launch
启动MapTask

mapreduce应用会向资源管理器请求这个job需要的容器,一个maptask容器请求每一个maptask。一个容器对每一个maptask的请求会尝试利用map分片的本地性,应用会请求一下数据:

  • 请求map split 和container在同一个节点管理器的container
  • 如果没有,请求一个map split 和container在同一个机架上的节点管理器上的container
  • 否则请求任意节点管理器上的container

这只是一小部分资源任务。资源任务器在资源任务器既定目标和指定目标冲突的时候,可以忽略本地性。当一个容器被分配一个任务,map就马上启动了。

Map阶段:一个执行阶段的例子

map 相的一个简要图:

  • 有两个节点管理器:每一个2GB的内存,每一个map需要1GB我们可以并行运行两个容器。这是最好的情况,而资源任务器的决策可能会有所不同
  • 集群没有其他的YARN任务运行
  • 我们的job有8个map分片,也就是在输入文件夹中有7个文件,只有一个是大于hdfs块大小的,需要被拆分为两个文件。

map任务的执行时间线

现在我们可以聚焦单个的map task:这是单个map的执行时间线:

  • 初始相:我们设置map任务
  • 执行相:map分片里面的每一个键值对进行map()函数运算
  • 溢写相:map的输出保存在环形内存缓冲区,当缓冲区满80%(一般80%),启动溢写相,将缓冲的数据写出到磁盘。
  • 洗牌相:在溢写相的结尾,我们合并多有的输出,并且打包他们以便进行reduce相处理。

map任务:初始化

在初始化阶段,我们:

 
  1. 创建一个上下文对象(context )(TaskAttemptContext)
  2. 创建用户map.class实例
  3. 设置输入
  4. 设置输出
  5. 创建mapper的上下文(MapContext.classMapper.Context.class)
  6. 初始化输入也就是:
  7. 创建 SplitLineReader.class 分片行阅读器
  8. 创建HdfsDataInputStream.class hdfs数据输入流

Map任务:执行阶段

执行阶段通过 Mapper class.的run()方法:

用户可以重写这个方法,但是默认的时候通常会调用setup而启动这个程序。这个函数默认并不做什么有用的 事情,但是可以被用户覆盖重写以便于设置任务(例如初始化类的变量),当设置完成之后,分片的每一个键值对会激发map()方法。因此map()接收到一个键,一个值,以及一个上下文context。使用这个上下文对象,一个map就会存储其输出到缓存中。

请注意,map分片是一个快一个块截取的(例如64kb),每一个快分割成为若干键值对的数据( SplitLineReader.class干的好事),这是在Mapper.Context.nextKeyValue内部完成的。当map分片被全部处理之后,run()会调用clean()方法。默认的,没有什么会被执行,除非用户重写覆盖他。

map任务:溢写阶段

正如我们在执行阶段看到的一样,map会使用Mapper.Context.write()将map函数的输出溢写到内存中的环形缓冲区 (MapTask.MapOutputBuffer)。缓冲区的大小是固定的,通过mapreduce.task.io.sort.mb (default: 100MB)指定。
任何时候当这个缓冲区将要充满的时候(mapreduce.map. sort.spill.percent: 默认80% ),溢写将会被执行(这是一个并行过程,使用的是单独的线程,缓冲池还可以继续被写入)。如果溢写线程太慢,而缓冲区又忙了的话,map()就会暂停执行而等待。
溢写线程执行下面的动作:
  1. 创建一个溢写记录SpillRecord 和一个FSOutputStream 文件输出流(本地文件系统)
  2. 内存内排序缓冲中的块:输出的数据会使用快排算法按照partitionIdx, key排序
  3. 排序之后的输出会分割成为分区:每一个分区对应一个reduce
  4. 分区序列化写到本地文件

来自: http://blog.csdn.net//mrcharles/article/details/50465626

MapReduce 图解流程超详细解答(1)-【map阶段】的更多相关文章

  1. MapReduce 图解流程超详细解答(2)-【map阶段】

    接上一篇讲解:http://blog.csdn.net/mrcharles/article/details/50465626 map任务:溢写阶段 正如我们在执行阶段看到的一样,map会使用Mappe ...

  2. CF468C Hack it! 超详细解答

    CF468C Hack it! 超详细解答 构造+数学推导 原文极简体验 CF468C Hack it! 题目简化: 令\(f(x)\)表示\(x\)在十进制下各位数字之和 给定一整数\(a\)构造\ ...

  3. MapReduce 图解流程

    Anatomy of a MapReduce Job In MapReduce, a YARN application is called a Job. The implementation of t ...

  4. JDK的下载及安装教程图解(超详细哦~)

    一.本人电脑系统介绍及JDK下载途径 1.先说明一下我的电脑为win10系统,64位操作系统~ 2.我选择下载的JDK版本为1.8版本.给大家来两个下载渠道,方便大家的下载~ JDK官网:https: ...

  5. MapReduce与Yarn 的详细工作流程分析

    MapReduce详细工作流程之Map阶段 如上图所示 首先有一个200M的待处理文件 切片:在客户端提交之前,根据参数配置,进行任务规划,将文件按128M每块进行切片 提交:提交可以提交到本地工作环 ...

  6. [转]超详细图解:自己架设NuGet服务器

    本文转自:http://diaosbook.com/Post/2012/12/15/setup-private-nuget-server 超详细图解:自己架设NuGet服务器 汪宇杰          ...

  7. SVN入门图解教程(超详细)

    SVN入门图解教程(超详细) 一.总结 一句话总结: 二.SVN入门教程 1. 什么是SVN SVN全名Subversion,即版本控制系统.SVN与CVS一样,是一个跨平台的软件,支持大多数常见的操 ...

  8. 超详细SQL SERVER 2016跨网段和局域网发布订阅配置图解和常见问题

    原文:超详细SQL SERVER 2016跨网段和局域网发布订阅配置图解和常见问题 转载标明出处:http://blog.csdn.net/u012861467 前方高能,要有点耐心,图片较多,注意在 ...

  9. Linux服务器上迁移项目路径,修改nginx配置,迁移及备份MongoDB数据库流程 (超详细)!!!

    缘由:客户服务器项目路径不是很合理,导致Jenkins自动部署时还需要添加路径后再更新部署,所以需要把项目路径统一和规范化. 迁移项目路径,保证路径合规,同时做好备份和迁移.迁移后先安装好依赖. 项目 ...

随机推荐

  1. Ubuntu 18.04 安装和常用软件安装

    Ubuntu 18.04 安装 下载 Ubuntu 制作 U 盘启动盘 设置电脑为 U 盘启动 插入 U 盘,重启电脑 按照提示安装 Ubuntu 更新 NVIDIA 显卡和 Broadcom 无线网 ...

  2. JasperReport学习札记6-JRXML的标签

    原文源于:http://langhua9527.iteye.com/blog/402317 JasperReport学习笔记6-JRXML的标签1.<jasperReport>根元素包括很 ...

  3. 一种3D空间的柱状多边形检测实现

    最近无意中拓展出这个东西,基于之前写的2D多边形检测: http://www.cnblogs.com/hont/p/6105997.html 而判断两条线相交的方法替换成了我后来写的差乘判断: htt ...

  4. VS Code插件Vue2 代码补全工具

    一.简介 此扩展将Vue 2代码片段和语法突出显示添加到Visual Studio代码中. 这个插件基于最新的Vue官方语法高亮文件添加了语法高亮,并且依据Vue 2的API添加了代码片段. 支持语言 ...

  5. sql中计算某天是全年的第几周及取得某天的所在周的周一的日期的函数

    --取得某天的所在周的周一的函数 CREATE FUNCTION getMondayBtDate(@date datetime) RETURNS date AS begin DECLARE @week ...

  6. (原创)c++11改进我们的模式之改进命令模式

    模式虽然精妙,却难完美,比如观察者模式中观察者生命周期的问题:比如访问者模式中循环依赖的问题等等:其它很多模式也存在这样那样的一些不足之处,如使用场景受限.实现复杂.不够简洁.不够通用等.但我觉得不足 ...

  7. 京东轮播图片的静态页面CSS3

    效果图: index.html <!DOCTYPE html> <html> <head> <meta charset="utf-8"&g ...

  8. DIOCP开源项目-DIOCP3的重生和稳定版本发布

    DIOCP3的重生 从开始写DIOCP到现在已经有一年多的时间了,最近两个月以来一直有个想法做个 30 * 24 稳定的企业服务端架构,让程序员专注于逻辑实现就好.虽然DIOCP到现在通讯层已经很稳定 ...

  9. 【转帖】(一)unity4.6Ugui中文教程文档-------概要

    原帖至上,移步请戳:(一)unity4.6Ugui中文教程文档-------概要 unity4.6中的一个重要的升级就是GUI ,也把它称为UGUI ,废话我不多说,大家可以百度了解一下. 虽然现在处 ...

  10. Windows下使用MINGW编译ffplay

    之前考虑到需要快速配置编译ffplay,使用了比较暴力的方法,具体可以参考编译ffplay.exe简化版. 这里介绍下相对规范的做法. 前提:已经安装了Windows下GCC开发环境--MINGW+m ...