【Hadoop离线基础总结】Yarn集群的资源调度

Yarn集群的资源调度

介绍

概述

Yarn是 Hadoop 2.x 引入的新的资源管理系统模块，主要用于管理集群当中的资源（主要是服务器的各种硬件资源，比如内存、CPU等），它不光管理硬件资源，还管理运行的一些任务信息等。
Yarn调度资源可以分为两个层级

一级管理调度：管理计算机的资源、运行job任务的生命周期

二级管理调度：任务的计算模型（maptask,reducetask的代码）、多样化的计算模型（spark,storm）
yarn集群当中各个组件的作用

ResourceManager：主节点，主要用于接受用户请求，分配资源

NodeManager：从节点，主要用于处理任务的计算

ApplicationMaster：每提交一个任务，启动一个appmaster，它全权负责管理我们任务的执行。

主要职责：申请资源，分配资源（分配Container），监控任务执行的进度状况，回收资源，和resourceManager通信，报告任务的执行状况“自杀”

Container：资源分配的单位，所有的资源都是以caontainer的形式来进行划分的，便于资源的分配和回收

JobHistoryServer：历史完成的任务信息

TimeLineServer：2.4版本之后出来的新特性，查看正在执行任务的信息

调度器

概述

调度器是解决任务先后提交，如何保证任务最快执行的一种策略，研究的是任务之间如何一起执行的问题
Hadoop当中的调度器主要有三种

第一种：fifo 队列调度器(first in first out)（没人用）

运行规则：第一个任务来了，先执行，第二个任务来了，等着

弊端：如果有一个很大的计算任务先来，需要执行两个小时，再来一个小任务，需要两分钟，第二个任务必须要等第一个完成。

第二种：capacity scheduler 容量调度器（apache的hadoop版本默认使用的调度器）

运行规则：将集群的资源，划分成好几个队列，任务提交的时候，可以选择不同的队列进行提交。

优点：根据提交任务需要资源的大小不同，可以将任务划分到不同给的队列下面去。

第三种：fair scheduler 公平调度器（CDH版本的hadoop默认的调度规则）

运行规则：如果没有任务提交，收到第一个任务，将进群当中所有的资源全部给第一个任务，如果此时收到第二个任务，就会将第一个任务的资源划分一点出来给第二个任务，让第二个任务也可以执行，以此类推，保证每一个任务都可以公平地一起执行

一般调度器不改

Yarn常用参数设置

yarn.nodemanager.resource.memory-mb

定义每台机器的内存使用大小，默认8192M
yarn.nodemanager.resource.cpu-vcores

定义每台机器的虚拟内核使用大小，默认8个
yarn.nodemanager.vmem-pmem-ratio 2.1

定义交换区空间可以使用的大小（交换区空间就是讲一块硬盘拿出来做内存使用）

这里指定的是nodemanager的n内存的2.1倍

tips

yarn的发展历程以及详细介绍：https://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop-yarn/

【Hadoop离线基础总结】Yarn集群的资源调度的更多相关文章

【原创 Hadoop&Spark 动手实践 5】Spark 基础入门，集群搭建以及Spark Shell
Spark 基础入门,集群搭建以及Spark Shell 主要借助Spark基础的PPT,再加上实际的动手操作来加强概念的理解和实践. Spark 安装部署理论已经了解的差不多了,接下来是实际动手实 ...
Hadoop 系列（二）—— 集群资源管理器 YARN
一.hadoop yarn 简介 Apache YARN (Yet Another Resource Negotiator) 是 hadoop 2.0 引入的集群资源管理系统.用户可以将各种服务框架部 ...
【Hadoop离线基础总结】oozie的安装部署与使用
目录简单介绍概述架构安装部署 1.修改core-site.xml 2.上传oozie的安装包并解压 3.解压hadooplibs到与oozie平行的目录 4.创建libext目录,并拷贝依赖包 ...
Hadoop（四）HDFS集群详解
前言前面几篇简单介绍了什么是大数据和Hadoop,也说了怎么搭建最简单的伪分布式和全分布式的hadoop集群.接下来这篇我详细的分享一下HDFS. HDFS前言: 设计思想:(分而治之)将大文件.大 ...
Apache Hadoop 2.9.2 的集群管理之服役和退役
Apache Hadoop 2.9.2 的集群管理之服役和退役作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 随着公司业务的发展,客户量越来越多,产生的日志自然也就越来越大来,可能 ...
YARN集群的mapreduce测试（四）
将手机用户使用流量的数据进行分组,排序: 测试准备: 首先同步时间,然后master先开启hdfs集群,再开启yarn集群:用jps查看: master上: 先有NameNode.SecondaryN ...
Hadoop 2.7.3 分布式集群安装
1. 集群规划: 192.168.1.252 palo252 Namenode+Datanode 192.168.1.253 palo253 YarnManager+Datanode+Secondar ...
【Hadoop离线基础总结】Hue的简单介绍和安装部署
目录 Hue的简单介绍概述核心功能安装部署下载Hue的压缩包并上传到linux解压编译安装启动启动Hue进程 hue与其他框架的集成 Hue与Hadoop集成 Hue与Hive集成 Hue ...
【Hadoop离线基础总结】impala简单介绍及安装部署
目录 impala的简单介绍概述优点缺点 impala和Hive的关系 impala如何和CDH一起工作 impala的架构及查询计划 impala/hive/spark 对比 impala的安 ...

随机推荐

C#开发BIMFACE系列34 服务端API之模型对比5：获取模型构件对比差异
系列目录 [已更新最新开发文章,点击查看详细] BIMFACE平台提供了服务端“获取修改构件属性差异”API,其返回的结果也是一个列表,仅针对修改的构件(不包含新增.删除的构件),是指对于一个 ...
嵌入式-01-LinuxC语言
一.必备Linux命令和C语言基础 1.Linux环境搭建(在第一阶段有提及). 2.文件和目录相关命令(一) (1)Linux的文件系统结构 /bin./boot./dev./etc./home./ ...
redis：安装及基础知识（一）
Redis官网:https://redis.io/ Redis中文网:http://www.redis.cn/ Redis 是一个开源的,内存中的数据结构存储系统,它可以用作数据库.缓存和消息中间件. ...
iview使用之怎样通过render函数在tabs组件中添加标签
在实际项目开发中我们通常会遇到一些比较'新颖'的需求,而这时iview库里往往没有现成可用的组件示例,所以我们就需要自己动手翻阅IviewAPI进行自定义一些组件,也可以说是将iview库里的多种组件 ...
SSH proxycommand 不在同一局域网的机器ssh直连
本地和192.168.1.10不在同一个网络,可以通过jumpserver跳转过去,操作如下选项 -L 本机端口 -f 后台启用,可以在本机直接执行命令,无需另开新终端 -N 不打开远程shell, ...
Java 多线程 --死锁及解决方案
在java 多线程中过多的同步造成相互不释放资源从而相互等待,造成死锁线现象,一般发生于同步中持有多个对象锁如以下代码: public class DeadLock { public stati ...
从零开始装CentOS以及配置Redis，前端都可以！！！
##### 从零开始装CentOS以及配置Redis 1.新建虚拟机 --- ![image](https://img2018.cnblogs.com/blog/1334966/201910/1334 ...
PHP 使用try catch,捕获异常
<?php header('Content-type:text/html;charset=utf-8'); $a = 1; $b = 2; try { / ...
DFS(单词方阵)
思路: 先把地图二维字符数组存进去之后,遍历寻找到一个‘y’,然后我们可以设置一个八个方向的方向数组,让‘y’的坐标,遍历加上方向坐标,找到’i‘然后沿着这个方向,dfs下去,每次寻找到正确的,然后建 ...
关于bash shell的理解
Bash Shell 基本特性 1.命令选项参数的补全补全选项,需要安装 bash-completion yum install -y bash-completion 2.快捷键 Ctrl + a ...

【Hadoop离线基础总结】Yarn集群的资源调度

Yarn集群的资源调度

介绍

调度器

Yarn常用参数设置

tips

【Hadoop离线基础总结】Yarn集群的资源调度的更多相关文章

随机推荐

热门专题