总体来说大概有以下2个大的步骤

1.连接集群(yarnrunner或者是localjobrunner)

2.submitter.submitJobInternal()在该方法中会创建提交路径,计算切片(writesplits),生成job.xml在路径下,提交job等

下面用windows下执行mr程序的过程进行源码分析,先把你的hadoop所在的盘符下的tmp文件清空.我的是d:/tmp

1.debug执行driver,进入waitForCompletion,然后进入conect(),可以看到该方法创建了一个新的集群对象

进入之后,来到Cluster类的构造方法里的initialize(),这个方法内部先初始化了包含着ClientProtocolProvider的list集合,然后遍历该集合,ClientProtocolProvider根据传入的conf来生成我们需要的ClientProtocol,这个对象用于客户端通信,该类的getClient()会返回创建完成的ClientProtocol实例

到这可以确定,connect方法的作用就是连接集群,本地的话就是localJobRunner,yarn上的话就是yarnrunner

生成的submitter是真正用于提交job的对象,接下来进入关键的submitter.submitJobInternal(Job.this, cluster),其内部第一行代码执行了checkSpecs(),该方法中用checkOutputSpecs()检查输出路径,

回到submitJobInternal(),getStagingDir()初始化提交数据的路径,还有一些权限管理的东西

这行代码执行完毕后,来到d:/tmp,发现果然创建了路径,当然目前还创建jobId,切片,所以目录是空的

接着向下执行完getNewJobId,生成了一个jobId,这个jobId将会赋给submitJobDir用于创建路径

接着向下执行,进入copyAndConfigureFiles(),该方法会创建路径并做一些上传的工作,包括各种配置文件,如果连接的yarn还会上传jar包

依次进入uploadResource()--------->uploadResourcesInternal

在uploadResourceInternal中执行完mkdirs,发现生成了jobId的目录,当然该目录仍然是空的

好了,接下来仍然回到submitJobInternal(),配置文件名为job.xml(此时并没有真正生成文件在磁盘目录下)

仅接着进入wirteSplits(),切片从这里开始

进入writeSplits()后再进入writeNewSplits(),进入input.getSplits(job)中,切片过程都在这个方法里了,

先分析long minSize = Math.max(getFormatMinSplitSize(), getMinSplitSize(job));求最大值,getFormatMinSplitSize()的返回值是1,getMinSplitSize(job)返回的是你在mapred-site.xml中配置的

mapreduce.input.fileinputformat.split.minsize的value值,默认是0,所以long minsize=1

而 long maxSize = getMaxSplitSize(job);中getMaxSplitSize返回的是Long的最大值所以maxSize=9223372036854775807

接着向下执行,可以看到此时的blocksize是32MB(因为是本地模式),

进入computeSplitSize()这是切片中我感觉最诡异的地方,上面我们说了minSize=1,maxSIze=Long.MaxValue>blockSize=32*1024*1024

所以返回值是blockSize,这也是为什么默认的切片大小等同于blockSize,接着向下就是切几片的问题,可以看到只有当字节数除以切片大小大于1.1时才会增加一片,否则整体作为一个切片

所以当剩余的大小除以切片数小于1.1时,这些剩余的字节将会整体作为一个切片加入切片的list中

回到submitJobInternal()执行完writesplite后,发现目录下多了些切片的规划文件,这些文件将会用来计算开启的maptask个数

接着向下执行完writeConf会把job.xml写入到目录下

现在这些文件马上要消失了,因为接下来要执行submitJob(),提交后文件会被清除

提交后会生成一个hadoop-用户的目录,查看了下这个目录也是空的,大概是用来记录连接记录之类的吧

到这提交过程基本就完成了,等待执行MapReduce程序即可

MapReduce 切片机制源码分析的更多相关文章

  1. Springboot学习04-默认错误页面加载机制源码分析

    Springboot学习04-默认错误页面加载机制源码分析 前沿 希望通过本文的学习,对错误页面的加载机制有这更神的理解 正文 1-Springboot错误页面展示 2-Springboot默认错误处 ...

  2. ApplicationEvent事件机制源码分析

    <spring扩展点之三:Spring 的监听事件 ApplicationListener 和 ApplicationEvent 用法,在spring启动后做些事情> <服务网关zu ...

  3. Android事件分发机制源码分析

    Android事件分发机制源码分析 Android事件分发机制源码分析 Part1事件来源以及传递顺序 Activity分发事件源码 PhoneWindow分发事件源码 小结 Part2ViewGro ...

  4. hadoop的RPC机制 -源码分析

    这些天一直奔波于长沙和武汉之间,忙着腾讯的笔试.面试,以至于对hadoop RPC(Remote Procedure Call Protocol ,远程过程调用协议,它是一种通过网络从远程计算机程序上 ...

  5. Hadoop的RPC机制源码分析

    分析对象: hadoop版本:hadoop 0.20.203.0 必备技术点: 1. 动态代理(参考 :http://www.cnblogs.com/sh425/p/6893662.html )2. ...

  6. 【Cocos2d-x 3.x】 事件处理机制源码分析

    在游戏中,触摸是最基本的,必不可少的.Cocos2d-x 3.x中定义了一系列事件,同时也定义了负责监听这些事件的监听器,另外,cocos定义了事件分发类,用来将事件派发出去以便可以实现相应的事件. ...

  7. Android查缺补漏(View篇)--事件分发机制源码分析

    在上一篇博文中分析了事件分发的流程及规则,本篇会从源码的角度更进一步理解事件分发机制的原理,如果对事件分发规则还不太清楚的童鞋,建议先看一下上一篇博文 <Android查缺补漏(View篇)-- ...

  8. Android异步消息传递机制源码分析

    1.Android异步消息传递机制有以下两个方式:(异步消息传递来解决线程通信问题) handler 和 AsyncTask 2.handler官方解释的用途: 1).定时任务:通过handler.p ...

  9. 【RabbitMQ学习记录】- 消息队列存储机制源码分析

    本文来自 网易云社区 . RabbitMQ在金融系统,OpenStack内部组件通信和通信领域应用广泛,它部署简单,管理界面内容丰富使用十分方便.笔者最近在研究RabbitMQ部署运维和代码架构,本篇 ...

随机推荐

  1. 理解String的compareTo()方法返回值

    compareTo()的返回值是整型,它是先比较对应字符的大小(ASCII码顺序), 如果第一个字符和参数的第一个字符不等,结束比较,返回他们之间的差值. 如果第一个字符和参数的第一个字符相等,则以第 ...

  2. fatfs输出目录

    利用fatfs文件系统, 如何输出SD卡根目录下的各个文件夹名字呢? 程序如下: u8 Dirname_i; u8 Dirname_j; DIR dir; //读取txt里的目录用,还是要把fatfs ...

  3. Swiper+ ejs模板引擎+ iScroll插件知识总结

    一. Swiper swiper是一个应用于移动端的动画插件,原理类似于轮播图 官网 http://www.swiper.com.cn/# html结构 <div class="swi ...

  4. java程序猿经常使用的工具名称--知道中文意思吗

    在学习java的时候常常会碰到一些单词,可是一般的时候也不是非常在意这个单词的意思,而是能够了解到这个工具或者框架能够做什么就能够了.偶尔总结了一下还蛮有意思的.例如以下, 假设有遗漏,各位能够帮忙补 ...

  5. thinkphp3.1课程 1-2 thinkphp中入口文件的实质是什么

    thinkphp3.1课程 1-2 thinkphp中入口文件的实质是什么 一.总结 一句话总结:在thinkphp中,我们访问的始终是入口文件,并没有主动去访问任何一个其他文件,只不过在入口文件体内 ...

  6. stm32单片机时钟中断的配置

    原作者:http://www.eeworld.com.cn/mcu/article_2016082828940.html 配置流程:   1:系统时钟初始化,包括系统时钟和要开放的IO口或者功能的时钟 ...

  7. Android layer-list的属性和使用具体解释

    Android layer-list的属性和使用具体解释.layer-list是用来多个图层堆叠显示的,借这个特性能够做一些特别的效果(比方:阴影.以下的效果等),也能够投机取巧. 1.代码片 < ...

  8. iOS Objc Runtime 教程+实例Demo

    样例Demo 欢迎给我star!我会继续分享的. 概述 Objc Runtime使得C具有了面向对象能力,在程序执行时创建,检查.改动类.对象和它们的方法.Runtime是C和汇编编写的,这里http ...

  9. JAVA初始开发环境搭建

    上午想在一台新电脑上搭建java开发环境,在没有之前备份的情况下,单靠网络还真有点麻烦.最主要的原因是貌似在我当前的网络环境下jdk无法下载,官网这个链接半天打不开,http://www.oracle ...

  10. C语言数组初始化的问题