6.capacity scheduler
1.先决条件
要使用yarn的capcitiy调度器,必须开启yarn的ACLs,否则队列ACLs设置不生效
开启yarn ACLs:
# hadoop: core-site.xml
hadoop.security.authorization=true #开启服务级别验证,否则hadoop组件的acl设置不生效
# yarn: yarn-site.xml
yarn.acl.enable=true
yarn.admin.acl=admin
2.容量调试器
2.1 特性
- 分层的队列
- 队列资源控制
每个队列的容量\app数\memory&core数.目前仅能限制内存而不能限制CPU - 队列权限控制
每个队列可以设置 Submit 和admin用户(组),只有这个些用户和组才能 提交和管理队列 - 资源共享
队列可以获得超过其容易的资源 如果一个队列容量为70%,但最大容量为100%,则在其它队列空闲的情况下可以使用100%的资源 - 多租户
可以限制单个用户和使用资源情况 如限制hive用户只能使用队列资源的20% - 动态刷新队列
可以在运行时停止\启动队列,以及重启分配队列的资源及ACL等,但不能在运行时删除队列. 当停止一个队列后,队列中已经运行的程序会继续运行,新的程序将不会提交到队列中. - 支持组映射
可以将特定的用户、组映射到某个队列中
2.2 配置
2.2.1.启用capacity
yarn-site.xml
yarn.resourcemanager.scheduler.class org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.CapacityScheduler
2.2.2.配置capactiy
配置队列:
<property>
<name>yarn.scheduler.capacity.root.queues</name>
<value>a,b,c</value>
<description>The queues at the this level (root is the root queue).
</description>
</property>
<property>
<name>yarn.scheduler.capacity.root.a.queues</name>
<value>a1,a2</value>
<description>The queues at the this level (root is the root queue).
</description>
</property>
<property>
<name>yarn.scheduler.capacity.root.b.queues</name>
<value>b1,b2,b3</value>
<description>The queues at the this level (root is the root queue).
</description>
</property>
root队列下有三个子队列 a b c ,a队列又有两个子队列a1 a2 ,b队列有三个子队列b1 b2 b3
2.2.3 队列属性
| k | v | note |
|---|---|---|
| yarn.scheduler.capacity..capacity | 队列的容量,百分比,如50%,默认容量. 各队列的默认容量加起来要等于100% | |
| yarn.scheduler.capacity..maximum-capacity | 最大容量,如100%,表示队列在其它队列空闲时可以使用的最大容量(可以占用其它队列的容量)。默认其它为-1,表示不限制 | |
| yarn.scheduler.capacity..minimum-user-limit-percent | 每个用户可以使用的最小资源百分比。如果设置为25,则一个用户时,最小可以使用25%,最大100%。两个用户:25% 50%,三个25% 33%。4个,25% 25%。 5个,则有一个要等待资源,剩下4个25% 25% | |
| yarn.scheduler.capacity..user-limit-factor | 单个用户使用的资源因子,浮点数,默认为1,表示用户只能使用队列配置的容量的1倍。 | 如果队列容量为30%,因子为1,即使集群很闲时,单个用户也只能使用整个集群的30%。配置为3则可以使用整个集群 |
| yarn.scheduler.capacity..maximum-allocation-mb | 队列中,每个container可以申请的最大内存,覆盖yarn的设置yarn.scheduler.maximum-allocation-mb | 要注意啊 |
| yarn.scheduler.capacity..maximum-allocation-vcores | 同上,覆盖yarn.scheduler.maximum-allocation-vcores | 要注意啊 |
| yarn.scheduler.capacity..user-settings..weight | 用户可以使用的资源权限。有abc三个用户,权限默认为1,如果a设置为1.5,那么a可以使用的资源是bc的1.5 | 结合上面第二个参数来看 |
2.2.4 队列中可执行和等的任务数设置
| k | v | note |
| ------------ | ------------ | ------------ |
|yarn.scheduler.capacity.maximum-applications / yarn.scheduler.capacity..maximum-applications |队列允许提交和等待的任务数,默认是10000.同时提交和执行的任务总数超过这个后,新提交的任务会被拒绝。前面的设置所有的队列,后面的设置特定队列 | |
|yarn.scheduler.capacity.maximum-am-resource-percent / yarn.scheduler.capacity..maximum-am-resource-percent |appmaster可以使用的集群资源百分比,默认0.1,当有大量小任务时可以改大一点 | |
2.2.5 队列管理和权限
| k | v | note |
|---|---|---|
| yarn.scheduler.capacity..state | 队列的状态,可以是RUNNING或者STOPPED。如果状态是STOPPED的,那么应用不能提交到该队列及其子队列。当队列被改为STOPPED后,会等待其中运行的任务结束再关闭 | 父队列STOPPED了子队列也不能用了 |
| yarn.scheduler.capacity.root..acl_submit_applications | 哪些用户和组有权限提交任务到队列中。子队列会继承父队列的权限。 | 在父队列有权限的话,就能在子队列提交任务 |
| yarn.scheduler.capacity.root..acl_administer_queue | 同上,这个是管理队列的,了队列也会继续父队列权限 |
用户格式:* 表示任何用户。 user1,user2 group2,group2
2.2.6 用户和组映射到队列中
设置用户和组提交到什么队列
| k | v | note |
| ------------ | ------------ | ------------ |
|yarn.scheduler.capacity.queue-mappings |用户组与队列的映射关系,格式为[u or g]:[name]:[queue_name][,next_mapping]*。如果用户名与队列名一致时,可以使用user%代替。当用户的组与队列各一致时,可以使用%primary_group | |
|yarn.scheduler.capacity.queue-mappings-override.enable |客户端是否可以修改组映射关系,默认是false | |
示例:
<property>
<name>yarn.scheduler.capacity.queue-mappings</name>
<value>u:user1:queue1,g:group1:queue2,u:%user:%user,u:user2:%primary_group</value>
<description>
Here, <user1> is mapped to <queue1>, <group1> is mapped to <queue2>,
maps users to queues with the same name as user, <user2> is mapped
to queue name same as <primary group> respectively. The mappings will be
evaluated from left to right, and the first valid mapping will be used.
</description>
</property>
2.2.6 应用程序的队列生命周期
| k | v | note |
|---|---|---|
| yarn.scheduler.capacity..maximum-application-lifetime | 应用程序提交到队列后允许在队列内的时间,单位是秒,设置小于等于0禁用此功能。超过这个时间将被kill掉。客户端设置的参数装会被服务端覆盖。注意不能设置的过。对sprak streaming这种错误也有影响吧。该参数只在队列有效 | |
| yarn.scheduler.capacity.root..default-application-lifetime | 默认值,要小于上面的最大值,也是只对子叶节点有效 |
3.设置队列优先级
略
4.刷新队列
$ vi $HADOOP_CONF_DIR/capacity-scheduler.xml
$ $HADOOP_YARN_HOME/bin/yarn rmadmin -refreshQueues
6.capacity scheduler的更多相关文章
- Hadoop Capacity Scheduler源码实现剖析
作者: 大圆那些事 | 文章可以转载,请以超链接形式标明文章原始出处和作者信息 网址: http://www.cnblogs.com/panfeng412/archive/2013/09/13/had ...
- Capacity Scheduler 队列设置
先附一个官网地址 Capacity Scheduler是YARN中默认的资源调度器. 相关参数配置: 资源分配相关参数 ``` (1) capacity:队列的资源容量(百分比). 当系统非常繁忙时, ...
- MapReduce多用户任务调度器——容量调度器(Capacity Scheduler)原理和源码研究
前言:为了研究需要,将Capacity Scheduler和Fair Scheduler的原理和代码进行学习,用两篇文章作为记录.如有理解错误之处,欢迎批评指正. 容量调度器(Capacity Sch ...
- 利用yarn capacity scheduler在EMR集群上实现大集群的多租户的集群资源隔离和quota限制
转自:https://m.aliyun.com/yunqi/articles/79700 背景 使用过hadoop的人基本都会考虑集群里面资源的调度和优先级的问题,假设你现在所在的公司有一个大hado ...
- <Yarn> <Capacity Scheduler> <Source Code>
Yarn capacity scheduler 首先要知道, [Attention: RM有两个组件,其中Scheduler完全就只是负责资源的分配:ApplicationsManager则负责接受a ...
- YARN的Fair Scheduler和Capacity Scheduler
关于Scheduler YARN有四种调度机制:Fair Schedule,Capacity Schedule,FIFO以及Priority: 其中Fair Scheduler是资源池机制,进入到里面 ...
- 二 Capacity Scheduler 计算能力调度器
官网的写的太难懂,参考:http://www.360doc.com/content/14/0603/14/14935022_383254798.shtml Capacity Scheduler 一种可 ...
- Hadoop的三种调度器FIFO、Capacity Scheduler、Fair Scheduler(转载)
目前Hadoop有三种比较流行的资源调度器:FIFO .Capacity Scheduler.Fair Scheduler.目前Hadoop2.7默认使用的是Capacity Scheduler容量调 ...
- YARN资源调度策略之Capacity Scheduler
背景 yarn默认使用的是最简单的FIFO调度器,即一个default队列,所有用户共享,分配资源也是先到先得,没有优先级之分.有时一两个任务就把资源全占了,其他任务吃不到资源造成饥饿,显然这样的资源 ...
随机推荐
- Splay普及版
辣么,我要介绍我自学的\(Splay\)了,虽然跟大佬们讲得会有些重复,但是自认为把一些玄妙的东西点出来了\(qwq\) \(0x01\) 引言 首先,我并没觉得\(Splay\)有多难--代码长的原 ...
- 再起航,我的学习笔记之JavaScript设计模式07(抽象工厂模式)
我的学习笔记是根据我的学习情况来定期更新的,预计2-3天更新一章,主要是给大家分享一下,我所学到的知识,如果有什么错误请在评论中指点出来,我一定虚心接受,那么废话不多说开始我们今天的学习分享吧! 前两 ...
- 对ArrayList存放的对象,按照对象的某个属性进行排序。
使用Collections.sort()方法进行实现: import java.util.ArrayList; import java.util.Collections; import java.ut ...
- CSS+JQuery实现Tabs效果,点击更改背景色(不含图片)
1,Html代码 <body> <div id="box"> <ul id="tab_nav"> <li class= ...
- iOS 多线程:『RunLoop』详尽总结
1. RunLoop 简介 1.1 什么是 RunLoop? 可以理解为字面意思:Run 表示运行,Loop 表示循环.结合在一起就是运行的循环的意思.哈哈,我更愿意翻译为『跑圈』.直观理解就像是不停 ...
- C++ 容器类型成员
类型别名 iterator 此容器类型的迭代类型 const_iterator 可以读取元素,但不能修改元素的迭代器类型 size_type 无符号整数类型,足够保存此种容器类型最大可能容器的大小 ...
- Flex自定义组件开发 - jackyWHJ
一般情况下需要组件重写都是由于以下2个原因: 1.在FLEX已有组件无法满足业务需求,或是需要更改其可视化外观等特性时,直接进行继承扩展. 2.为了模块化设计或进一步重用,需要对FLEX组件进行组合. ...
- win10操作系统vs2010编译osg3.4.0问题解决记录
参考博客:OSG3.4.0+VS2010+WIN10编译及二次开发环境搭建 链接:https://blog.csdn.net/hsc1239653453/article/details/7827856 ...
- 5289: [Hnoi2018]排列
5289: [Hnoi2018]排列 链接 分析: 首先将题意转化一下:每个点向a[i]连一条边,构成了一个以0为根节点的树,要求选一个拓扑序,点x是拓扑序中的第i个,那么价值是i*w[x].让价值最 ...
- Kubernetes学习之路(十五)之Ingress和Ingress Controller
目录 一.什么是Ingress? 1.Pod 漂移问题 2.端口管理问题 3.域名分配及动态更新问题 二.如何创建Ingress资源 三.Ingress资源类型 1.单Service资源型Ingres ...