job任务执行流程与分区机制

job任务执行流程
   1.run job阶段
       ①收集整个job的环境信息（比如通过conf设定的参数，还有mapperClass,reducerClass,以及输出kv类型）
       ②会计算当前job的切片数量（切片不同等切块，用FileSplit：path start length）
       ③检测环境信息的合法性，以及输入和输出的路劲合法性。
   2.如果第一步的检测通过之后，会去找JobTracker，为当前的job申请jobid，用于标识job。jobid是全局唯一的，目的是管理job，因为整个集群同一时间内可能跑多个job。
   3.JobClient收到jobid，就将此job的运算资源（①conf.xml ②summary ③jar 包）
提交到HDFS上，目录路径：/tmp/hadoop-yarn/history/done_intermediate/root
conf.xml：存储的是job的环境配置信息
summary:jobid，mapTask数量和reduceTask数
jar包:程序员写的代码
   4.JobClient 做submit job动作，底层是把第三步的job的资源路径信息告知给JobTracker。
   5.6 去HDFS上拿取job的运算资源，然后做job的初始化，查看配置信息，以及拿到job的切片数量（本地目的是获取有几个mapTask）
   7.任务的领取，底层要满足数据本地化策略，节省集群的带宽---：因为MapTask读取文件是按行读取，所以必须要保证读取的是完整一行。底层会发生一个位置追溯的动作，此过程不可避免的会发生网络数据的传输，但数据量很小。
   8.去HDFS获取job 的运算资源（主要是jar包），然后结合代码来处理数据了。
这里体现了Hadoop的思想：移动的是运算，而不是数据。目的也是节省集群带宽
   9.10启动JVM进程,执行MapTask或ReduceTask。
   注意：MapTask任务的数量=job的切片数量

分区机制

       1.一个Job的ReduceTask数量，默认就1个。
       2.习惯上，把reduceTask叫做分区，即有几个reduceTask，就有几个分区。
       3.Hadoop底层有一个默认的分区器（HashPartitioner），此分区器的作用可以确保相同的Mapper输出key落到同一个分区（reduceTask)里。
       4.最后的结果文件数量=分区（reduceTask）数量，即每个结果文件存储的是对应分区的结果数据。
       5.因为底层用的是简单hash算法，所以会产生数据倾斜，有时会产生某个结果文件数据很少或没有的情况。
       6.如果最后想多个结果文件的结果合并在一起，

job任务执行流程与分区机制的更多相关文章

Map/Reduce 工作机制分析 --- 作业的执行流程
前言从运行我们的 Map/Reduce 程序,到结果的提交,Hadoop 平台其实做了很多事情. 那么 Hadoop 平台到底做了什么事情,让 Map/Reduce 程序可以如此 "轻易& ...
第九篇：Map/Reduce 工作机制分析 - 作业的执行流程
前言从运行我们的 Map/Reduce 程序,到结果的提交,Hadoop 平台其实做了很多事情. 那么 Hadoop 平台到底做了什么事情,让 Map/Reduce 程序可以如此 "轻易& ...
追源索骥：透过源码看懂Flink核心框架的执行流程
li,ol.inline>li{display:inline-block;padding-right:5px;padding-left:5px}dl{margin-bottom:20px}dt, ...
spark 源码分析之二十一 -- Task的执行流程
引言在上两篇文章 spark 源码分析之十九 -- DAG的生成和Stage的划分和 spark 源码分析之二十 -- Stage的提交中剖析了Spark的DAG的生成,Stage的划分以及St ...
透过源码看懂Flink核心框架的执行流程
前言 Flink是大数据处理领域最近很火的一个开源的分布式.高性能的流式处理框架,其对数据的处理可以达到毫秒级别.本文以一个来自官网的WordCount例子为引,全面阐述flink的核心架构及执行流程 ...
一个 Spark 应用程序的完整执行流程
一个 Spark 应用程序的完整执行流程 1.编写 Spark Application 应用程序 2.打 jar 包,通过 spark-submit 提交执行 3.SparkSubmit 提交执行 4 ...
ThinkPHP2.2框架执行流程图,ThinkPHP控制器的执行流程
ThinkPHP2.2框架执行原理.流程图在线手册 ThinkPHP控制器的执行流程对用户的第一次URL访问 http://<serverIp>/My/index.php/Index/s ...
PHP解释器引擎执行流程 - [ PHP内核学习 ]
catalogue . SAPI接口 . PHP CLI模式解释执行脚本流程 . PHP Zend Complile/Execute函数接口化(Hook Call架构基础) 1. SAPI接口 PHP ...
分享一张SQLSERVER执行流程的图片
分享一张SQLSERVER执行流程的图片有天论坛里有人问,一时间并发连接很多,是不是可以在SSMS里配置连接池连接池是属于客户端的,配置只能在连接字符串里配置,修改你的连接字符串,SSMS没有一个 ...

随机推荐

69.查看APP沙盒缓存的内容文件
第一步:链接真机设备,点击Xcode ,按command+shift+2 弹出电脑所运行的APP列表第二步:选中你需要查看的APP,点击最下面! 类似于设置图标的按钮! 点击第二个Download ...
Softmax && Cross-entropy Error
softmax 函数,被称为归一化指数函数,是sigmoid函数的推广. 它将向量等比压缩到[0, 1]之间,所有元素和为1. 图解: Example: softmax([1, 2, 3, 4, 1 ...
2018.12.08 codeforces 939E. Maximize!（二分答案）
传送门二分答案好题. 题意简述:要求支持动态在一个数列队尾加入一个新的数(保证数列单增),查询所有子数列的最大值减平均值的最大值. 然而网上一堆高人是用三分做的. 我们先考虑当前的答案有可能由什 ...
MFC 消息框
窗口类能够使用messagebox int ret = MessageBox(_T("内容"), _T("标题"), MB_OKCANCLE| //MB_OB ...
UVa 1610 Party Games（思维）
题意: 给出一系列字符串,构造出一个最短字符串(可以不在集合中)大于等于其中的一半,小于另一半. 析:首先找出中间的两个字符串,然后暴力找出最短的字符串,满足题意. 代码如下: #include &l ...
[指南] 15分钟学会MySQL（Linux版）
原文链接:http://www.mysqlpub.com/thread-348-1-1.html 原创出处:MySQLpub.com , 作者:kider ,转载请注明作者和出处,并不能用于商业用 ...
Language Oriented Programming:下一代编程样式 Part I （翻译）
原文信息原文地址作者信息 Sergey Dmitriev JetBrains Sergey Dmitriev is the cofounder and CEO of JetBrains Inc., ...
java http大文件断点续传上传
因为需要研究下断点上传的问题.找了很久终于找到一个比较好的项目. 效果: 上传中,显示进度,时间,百分比. 点击[Pause]暂停,点击[Resume]继续. 2,代码分析项目进行了封装使用最简单的 ...
15-BOM
BOM的介绍 JavaScript基础分为三个部分: ECMAScript:JavaScript的语法标准.包括变量.表达式.运算符.函数.if语句.for语句等. DOM:文档对象模型,操作网页上的 ...
（转）php语法（符号用法）
转自:http://blog.unvs.cn/archives/php-equal-bracket.html 学习PHP过程中,会常碰到一些特殊的符号,比如:=.==.===.->.=>. ...

job任务执行流程与分区机制

job任务执行流程与分区机制的更多相关文章

随机推荐

热门专题