3.资源调度框架yarn
既然要分析yarn,无非是从以下方面分析
(一).yarn产生背景
(二).yarn概述
(三).yarn架构
(四).yarn执行流程
(五).yarn环境搭建
(六).提交作业到yarn上运行
(一).yarn产生的背景
1.在Mapreduce1.x版本中,单点故障以及节点压力大不容易扩展

而且这种架构只支持MapReduce,像spark就无法支持
2.资源利用率低,以及运维成本高

可以看到多个集群之间空闲比较多,资源利用率低,并且集群之间资源无法共享。hadoop空闲的时候无法给spark用,并且如果spark相对hadoop上的数据进行操作,需要跨网络把hadoop上的数据移过来,这个消耗是非常大的。那么能不能有一种模式,在一个集群上面运行hadoop,spark等等,共享一个集群的资源,这样肯定能大大减少数据移动所带来的成本,提高资源的利用率
以上原因便促使了yarn的诞生

可以看到在有了yarn之后,可以支持很多计算框架。在hadoop1.x的时候,只支持MapReduce,但是2.x有了yarn之后,可以支持各种不同的计算框架,并且这些框架共享一个hdfs里的所有资源。我们可以把yarn想象成一个操作系统级别的资源调度框架,可以让更多不同的计算框架运行在同一个集群里面,享受整体的资源调度。
我们也常常听到xxx on yarn,这里的xxx可以使spark,MapReduce,storm,flink。这样的好处就在于与其他框架共享集群资源,按资源需要分配,进而提高集群资源的利用率
(二).yarn的概述
yarn是一个通用的资源管理系统,为上层应用提供统一的资源管理和调度
(三).yarn的架构

1)ResourceManager:RM
整个集群同一时间提供服务的RM只有一个,负责集群资源的统一管理和调度
处理客户端的请求:提交一个作业,杀死一个作业
监控NodeManager,一旦某个NM挂掉了,那么在该NM上运行的任务需要告诉我们的ApplicationMaster,来如何进行处理
2)NodeManager:NM
整个集群中有多个,负责自己本身节点的资源管理和使用
定时向RM汇报节点的资源使用情况
接收并处理来自RM的各种命令:启动container
处理来自AM的命令
单个节点的资源管理
3)ApplicationMaster:AM
每个应用程序对应一个AM,比如,MapReduce,spark,AM负责应用程序的管理
为应用程序申请资源(core,memory),分配给内部的task
需要与NM通信:启动/停止task。
task是运行在container里面的,AM也是
4)Container
封装了CPU,memory等资源的容器
是任务运行环境的一个抽象
5)Client
提交作业
查询作业的运行进度
杀死作业
(四).yarn的执行流程

用户向yarn提交一个作业,比如一个MapReduce作业,spark作业。
那么RM会为作业分配第一个container,假设运行在第二个节点上面。RM就会与对应的NM进行通信,要求在该NM上面启动一个container,这个container是用来启动AM的。然后AM会到RM上进行一个注册。然后client就可以直接通过RM来查询作业的运行情况了
然后AM会将你作业所需要的core,memory来向RM申请,所以第四个箭头是来回的,双向的
然后AM在对应的NM上启动container,运行task
(五).yarn环境搭建
yarn并不需要单独下载,只需要修改两个配置文件即可。
yarn-site.xml
mapred-site.xml
配置文件仍然在etc/hadoop下面
1.修改mapred-site.xml
但是你会发现没有这个文件,倒是有mapred-site.xml.template这个文件,我们需要拷贝一份,然后把名称改成mapred-site.xml

2.修改yarn-site.xml

3.启动yarn相关的进程
sbin/start-yarn.sh
4.验证
可以通过jps,也可以通过浏览器访问http://localhost:8088

启动成功

jps显示多了两个进程
我们也可以使用浏览器来访问,访问http://local:8088,或者http://ubuntu:8088,因为我这里的主机名就叫ubuntu

我们集群的详细信息都显示了出来
5.停止yarn
sbin/stop-yarn.sh
(六).提交作业到yarn上运行
我们还没有介绍MapReduce,后面会介绍,但是我们之前说了,hadoop为我们提供了一个测试用例,名字带example的那个
/usr/local/hadoop-cdh/hadoop-2.6.0-cdh5.8.5/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0-cdh5.8.5.jar

这个包的使用方法,输入hadoop jar hadoop-mapreduce-examples-2.6.0-cdh5.8.5.jar会有提示
我这里输入的是hadoop jar hadoop-mapreduce-examples-2.6.0-cdh5.8.5.jar pi 2 3,我们来通过浏览器看看结果

3.资源调度框架yarn的更多相关文章
- 坐实大数据资源调度框架之王,Yarn为何这么牛
摘要:Yarn的出现伴随着Hadoop的发展,使Hadoop从一个单一的大数据计算引擎,成为大数据的代名词. 本文分享自华为云社区<Yarn为何能坐实资源调度框架之王?>,作者: Java ...
- Yarn 资源调度框架
Yarn 资源调度框架 实现对资源的细粒度封装(cpu,内存,带宽) 此外,还可以通过yarn协调多种不同计算框架(MR,Spark) 概述 Apache Hadoop ...
- Hadoop 新 MapReduce 框架 Yarn 详解
Hadoop 新 MapReduce 框架 Yarn 详解: http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop-yarn/ Ap ...
- Android系统“资源调度框架”
Android系统"资源调度框架" 目录 Android系统"资源调度框架" 一.一些问题的思考 "资源"是什么 "资源" ...
- 更快、更强——解析Hadoop新一代MapReduce框架Yarn(CSDN)
摘要:本文介绍了Hadoop 自0.23.0版本后新的MapReduce框架(Yarn)原理.优势.运作机制和配置方法等:着重介绍新的Yarn框架相对于原框架的差异及改进. 编者按:对于业界的大数据存 ...
- Hadoop 新 MapReduce 框架 Yarn 详解【转】
[转自:http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop-yarn/] 简介: 本文介绍了 Hadoop 自 0.23.0 版本 ...
- 吴裕雄--天生自然HADOOP操作实验学习笔记:分布式资源调度系统yarn的安装
实验目的 复习配置hadoop初始化环境 复习配置hdfs的配置文件 学会配置hadoop的配置文件 了解yarn的原理 实验原理 1.yarn是什么 前面安装好了hdfs文件系统,我们可以根据需求进 ...
- 大数据框架-YARN
YARN(Yet Another Resource Negotiator): 是一种新的 Hadoop 资源管理器 [ResourceManager:纯粹的调度器,基于应用程序对资源的需求进行调度的, ...
- Hadoop框架:Yarn基本结构和运行原理
本文源码:GitHub·点这里 || GitEE·点这里 一.Yarn基本结构 Hadoop三大核心组件:分布式文件系统HDFS.分布式计算框架MapReduce,分布式集群资源调度框架Yarn.Ya ...
随机推荐
- 数据挖掘算法:DBSCAN算法的C++实现
(期末考试快到了,所以比较粗糙,请各位读者理解..) 一. 概念 DBSCAN是一种产生划分聚类的基于密度的聚类算法,簇的个数由算法自动地确定.低密度区域中的点被视为噪声而忽略,因此DBSCAN ...
- Python 学习笔记之—— PIL 库
PIL,全称 Python Imaging Library,是 Python 平台一个功能非常强大而且简单易用的图像处理库.但是,由于 PIL 仅支持到Python 2.7,加上年久失修,于是一群志愿 ...
- pandas DataFrame的查询方法(loc,iloc,at,iat,ix的用法和区别)
pandas DataFrame的增删查改总结系列文章: pandas DaFrame的创建方法 pandas DataFrame的查询方法 pandas DataFrame行或列的删除方法 pand ...
- Python杂篇
一:文件保存 def save_to_file(file_name, contents): fh = open(file_name, 'w') fh.write(contents) fh.close( ...
- [转]Hexo博客添加访问统计 - 记录
引入不蒜子 <script async src="//dn-lbstatics.qbox.me/busuanzi/2.3/busuanzi.pure.mini.js"> ...
- C++陷阱系列:让面试官倒掉的题
http://blog.chinaunix.net/uid-22754909-id-3969535.html 今天和几位同仁一起探讨了一下C++的一些基础知识,在座的同仁都是行家了,有的多次当过C++ ...
- 【Autofac】- 创建的类的生命周期
1.InstancePerDependency 对每一个依赖或每一次调用创建一个新的唯一的实例.这也是默认的创建实例的方式. 官方文档解释:Configure the component so tha ...
- HTML5调用手机摄像头,仅仅支持OPPOHD浏览器
<!doctype html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
- BZOJ4668 冷战(并查集)
显然可以用LCT维护kruskal重构树.或者启发式合并维护kruskal重构树的倍增数组虽然多了个log也不一定比LCT慢吧. 当然这里的kruskal重构树几乎只是把树上的边权换成了点权,并不重要 ...
- 【题解】MUTC2013idiots
我是先知道的这题是FFT然后再做的,知道是FFT其实就是个套路题啦.首先,我们容易发现 \(P = \frac{a}{b}\) 其中a表示合法的方案数,而b表示全部的方案数. b的值即为\(C\lef ...