1.MRv2结构—Yarn模式运行机制

Client---客户端提交任务

ResourceManager---资源管理

---Scheduler调度器-资源分配Containers

----在Yarn中有三种调度器可以选择：FIFO Scheduler先进先出调度器 ，Capacity Scheduler容量调度器，FairS cheduler公平调度器。

FIFO Scheduler把应用按提交的顺序排成一个队列，这是一个先进先出队列，在进行资源分配的时候，先给队列中最头上的应用进行分配资源，待最头上的应用需求满足后再给下一个分配，以此类推。

FIFO Scheduler是最简单也是最容易理解的调度器，也不需要任何配置，但它并不适用于共享集群。大的应用可能会占用所有集群资源，这就导致其它应用被阻塞。在共享集群中，更适合采用Capacity Scheduler或Fair Scheduler，这两个调度器都允许大任务和小任务在提交的同时获得一定的系统资源。

---ApplicationManager-接收Job提交请求，分配第一个Container来运行ApplicationMaster并监控ApplicationMaster状态

NodeManager---节点代理、与ResourceManager交互分配具体的Container，监控Container使用情况并报告给ResourceManager做好记录，以便于其他Job申请Container使用。

ApplicationMaster---向RM申请Container，NM分配具体的Container给AM,AM监控Job的整个过程（运行状态、运行进度等）

Container---一组CPU和内存资源

Yarn运行机制描述如下：

1.Client提交任务给ResourceManager，ResoureManager下的ApplicationManager接收请求，分配第一个Container来运行ApplicationMaster,ApplicationManager监控ApplicationMaster状态；

2.ApplicationMaster向ResourceManager申请Container，ResouceManager下的Scheduler告知有哪些Container可用，并告知slaves下的NodeManager分配具体的Container给ApplicationMaster；

3.ApplicationMaster请求slaves下的NodeManager分配具体的Container,ApplicationMaster获得具体的Container给任务，并跟踪监控该任务的全部过程（运行状态、运行进度等）；

4.NodeManager监控Container（CPU、内存）的使用情况，并告知ResourceManager下的Scheduler做好记录，以方便其他任务申请资源。

----------------------------------------------------------------------------------------------------------------------------------------------------------

在MR1中，JobTracker即负责job的监控，又负责系统资源的分配。而在MR2中，资源的调度分配由ResourceManager专门进行管理，而每个job或应用的管理、监控交由相应的分布在集群中的ApplicationMaster，如果某个ApplicationMaster失败，ResourceManager还可以重启它，这大大提高了集群的拓展性。MR1中的TaskTracker负责监控任务状态和机器资源使用情况，并报告给JobTracker。

MRv1缺点：

1、JobTracker是Map-reduce的集中处理点，存在单点故障

2、JobTracker完成了太多的任务，造成了过多的资源消耗，当map-reduce job非常多的时候，会造成很大的内存开销，潜在来说，也增加了JobTracker fail的风险，这也是业界普遍总结出老hadoop 的Map-Reduce只能支持4000节点主机的上限。

3、在TaskTracker端，以map/reduce task的数目作为资源的表示过于简单，没有考虑到cpu/内存的占用情况，如果两个大内存消耗的task被调度到了一块，很容易出现OOM

4、在TaskTracker端，把资源强制划分为map task slot和reduce task slot如果当系统中只有map task或者只有reduce task的时候，会造成资源的浪费，也就是前面提到过的集群资源利用的问题。

5、源代码非常难读，因为一个类做了太多的事情，而代码量过多，造成class的任务不清晰，增加bug的修复和版本维护的难读。

MRv2（Yarn）优点：

1、大大减小了JobTracker（也就是现在的ResourceManager）的资源消耗，并且让检测每一个Job子任务（tasks）状态的程序分布式化了。更安全、更优美

2、在新的Yarn中，ApplicationMaster是一个可变更的部分，用户可以对不同的编程模型写自己的ApplicationMaster，让更多类型的编程模型能够跑在Hadoop集群中。

3、对于资源的表示以内存为单位，比之前以剩余slot数目更合理

4、老的框架中，JobTracker一个很大的负担就是监控kob下的tasks的运行状况，现在，这个部分就扔给ApplicationMaster了，而ResourceManager中有一个模块叫做ApplicationsMaster,它是检测ApplicationMaster的运行状况，如果出问题，会将其在其他机器上重启

5、Container是Yarn为了将来做资源隔离而提出的一个框架，这一点应该借鉴了Mesos的工作，目前是一个框架，仅仅提供Java虚拟机内存的隔离，hadoop团队的设计思路应该后续能支持更多的资源调度和控制，既然资源表示成内存量，那就没有了之前的map slot/reduce slot分开造成集群资源闲置的尴尬情况。

1、大大减小了JobTracker（也就是现在的ResourceManager）的资源消耗，并且让检测每一个Job子任务（tasks）状态的程序分布式化了。更安全、更优美

2、在新的Yarn中，ApplicationMaster是一个可变更的部分，用户可以对不同的编程模型写自己的ApplicationMaster，让更多类型的编程模型能够跑在Hadoop集群中。

3、对于资源的表示以内存为单位，比之前以剩余slot数目更合理

Hadoop记录-MRv2（Yarn）运行机制的更多相关文章

hadoop MapReduce Yarn运行机制
原 Hadoop MapReduce 框架的问题原hadoop的MapReduce框架图从上图中可以清楚的看出原 MapReduce 程序的流程及设计思路: 首先用户程序 (JobClient) ...
Hadoop_19_MapReduce&&Yarn运行机制
1.YARN的运行机制 1.1.概述: Yarn集群:负责海量数据运算时的资源调度,集群中的角色主要有:ResourceManager.NodeManager Yarn是一个资源调度(作业调度和集群资 ...
hadoop Yarn运行机制
Flink on Yarn运行机制
从图中可以看出,Yarn的客户端需要获取hadoop的配置信息,连接Yarn的ResourceManager.所以要有设置有 YARN_CONF_DIR或者HADOOP_CONF_DIR或者HADOO ...
一文了解 Hadoop 运行机制
大数据技术栈在当下已经是比较成熟的了,Hadoop 作为大数据存储的基石,其重要程度不言而喻,作为一个想从 java 后端转向大数据开发的程序员来说,打好 Hadoop 基础,就相当于夯实建造房屋的地 ...
Spark记录-实例和运行在Yarn
#运行实例 #./bin/run-example SparkPi 10 #./bin/spark-shell --master local[2] #./bin/pyspark --master l ...
day1--大数据概念，hadoop介绍，hdfs整体运行机制
1.什么是大数据基本概念在互联网技术发展到现今阶段,大量日常.工作等事务产生的数据都已经信息化,人类产生的数据量相比以前有了爆炸式的增长,以前的传统的数据处理技术已经无法胜任,需求催生技术,一套用 ...
经典MapReduce作业和Yarn上MapReduce作业运行机制
一.经典MapReduce的作业运行机制如下图是经典MapReduce作业的工作原理: 1.1 经典MapReduce作业的实体经典MapReduce作业运行过程包含的实体: 客户端,提交MapR ...
Hadoop记录-Yarn命令
概述 YARN命令是调用bin/yarn脚本文件,如果运行yarn脚本没有带任何参数,则会打印yarn所有命令的描述. 使用: yarn [--config confdir] COMMAND [--l ...

随机推荐

在Windows命令行中编译运行C/C++程序
此处运行环境是在Windos下,运行cmd命令进入DOS界面现在有一段简单C++代码(文件名为 demo.cpp),用于计算a*b的值 #include<iostream> using ...
（html4与html5分别实现）用一个表单向php界面提交不同的命令
先看上面的表单实例,分别有3个submit,只不过需要根据需要进行选择添加.删除或是修改.现在有两个方案. 方案一: 如果实在HTML4中,可以用下面的代码实现, 即将所有的submit提交到acce ...
PAT L3-003 社交集群
https://pintia.cn/problem-sets/994805046380707840/problems/994805053141925888 当你在社交网络平台注册时,一般总是被要求填写 ...
linux_文件基本操作
创建文件 $ touch [文件名]
Qt_深入了解信号槽(signal&slot)
转自豆子空间信号槽机制是Qt编程的基础.通过信号槽,能够使Qt各组件在不知道对方的情形下能够相互通讯.这就将类之间的关系做了最大程度的解耦. 槽函数和普通的C++成员函数没有很大的区别.它们也可以使 ...
hive启动方式
python之函数（可选参数和混合参数）
代码举例: # 函数可选参数举例,hoppy参数可传可不传 def getinfo(name, age, hoppy=''): if hoppy: print("name:", n ...
SP5973 SELTEAM - Selecting Teams
SP5973 SELTEAM - Selecting Teams [题目描述] 他已经有 n 个心仪的妹子了,但随着时间的流逝,只有 m(1<=m<=k)个直伴随在他的身边,而小小迪发现他 ...
ubuntu 程序后台运行几个方法
51 1. 程序后加上“&” ,即 “./myjob &”, 将命令放入到一个作业队列中,可以用命令“jobs” 查看 2. 将1中的命令放在 “()”中, 即 “(./myjob & ...
BZOJ4517[Scoi2016]美味——主席树
题目描述一家餐厅有 n 道菜,编号 1...n ,大家对第 i 道菜的评价值为 ai(1≤i≤n).有 m 位顾客,第 i 位顾客的期望值为 bi,而他的偏好值为 xi .因此,第 i 位顾客认为 ...

Hadoop记录-MRv2（Yarn）运行机制

1.MRv2结构—Yarn模式运行机制

MRv1缺点：

MRv2（Yarn）优点：

Hadoop记录-MRv2（Yarn）运行机制的更多相关文章

随机推荐

热门专题