聊聊kube-scheduler如何完成调度和调整调度权重
本文分享自华为云社区《kube-scheduler如何完成调度和调整调度权重》,作者: 可以交个朋友。
一、概述
Kube-scheduler作为k8s集群的默认调度器,它监听(watch机制)kube-apiserver,查询还未调度的pod,根据调度策略将pod调度至集群内最适合的Node
二、调度流程
首先我们通过API或者kubectl工具创建pod,kube-apiserver收到请求信息存储到etcd中,调度器通过watch机制监听apiserver查看到还未被调度的pod列表,循环遍历的为每个pod尝试分配node,这个分配过程如下:
kube-scheduler内Informer组件list-watch apiserver,使用spec.nodeName=""筛选出还未调度的Pod
预选(predicate):调度器通过Predicate算法过滤掉不满足条件的节点
优选(priorlty):对于通过预选的节点,通过打分机制,筛选出得分最高的node
当调度器为Pod选择了一个合适的节点后,将Pod和节点进行绑定(将节点名称赋值给pod的spec.nodeName字段)

注意:Pod.spec.nodeName用于强制约束将Pod调度到指定的Node上,通过指定nodeName可直接绕过调度器,并不会做任何的资源过滤和检查
三、kuble-scheduler调度原理
Kube-scheduler的调度框架,在 Kubernetes 里面叫作 Scheduler Framework。Pod在调度过程中,都需要依次经过以下的各个阶段,每个阶段自带调度算法,调度算法由插件提供,也可以在指定阶段开发自己的插件。每个插件可以在指定阶段实现具体的调度算法,比如NodeAffinity插件在Filter阶段过滤掉与Pod不亲和的节点。
PreFilter: 预处理 Pod 的相关信息,或者检查集群或Pod 必须满足的某些条件。如果 PreFilter 插件返回错误,则调度周期将终止。
Filter: 过滤出不能运行该 Pod 的节点。对于每个节点,调度器将按照其配置顺序调用这些过滤插件。如果任何过滤插件将节点标记为不可行,则节点直接排除,不会为该节点调用剩下的过滤插件。
PostFilter: 在 Filter 阶段后调用,但仅在该 Pod 没有可行的节点时调用。 典型的后筛选实现是抢占,试图通过抢占其他 Pod 的资源使该 Pod 可以调度。
PreScore: 运行评分任务以生成可评分插件的共享状态,如果 PreScore 插件返回错误,则调度周期将终止
Score: 通过调用每个评分插件对可调度节点评分
NormalizeScore: 规范每个插件的打分在[0,100]之间
Reserve: 在绑定周期之前选择保留的节点
Permit: 批准或拒绝pod调度周期的结果
PreBind: 用于执行 Pod 绑定前所需的任何工作。例如,一个预绑定插件可能需要提供网络卷并且在允许 Pod 运行在该节点之前 将其挂载到目标节点上。
Bind: 用于将 Pod 绑定到节点上。直到所有的PreBind 插件都完成,Bind 插件才会被调用。
PostBind: 这是个信息性的扩展点。绑定后插件在 Pod 成功绑定后被调用。这是绑定周期的结尾,可用于清理相关的资源
调度器预选阶段对应filter,主要用于过滤不满足Pod调度条件的节点;优选阶段对应score,主要用于为每个节点打分,节点分数=插件打分*插件权重;然后排序选出分数最高的节点
|
调度阶段 |
实现插件名称 |
插件功能介绍 |
|
filter |
PodTopologySpread |
判断节点是否满足Pod的拓扑分布,不满足则过滤该节点. |
|
InterPodAffinity |
判断节点是否满足Pod的亲和性配置,不满足则过滤该节点 |
|
|
NodePorts |
判断节点是否满足Pod的端口申请,不满足则过滤该节点 |
|
|
NodeAffinity |
判断节点是否满足Pod的节点亲和性配置,不满足则过滤该节点 |
|
|
VolumeBinding |
判断节点是否满足pv的节点亲和性,并且将满足动态创建pvc条件(比如拓扑)的节点保存起来,以便后续阶段使用 |
|
|
TaintToleration |
根据Pod容忍和节点污点的NoSchedule和NoExecute过滤节点 |
|
|
Score |
NodeAffinity |
根据插件权重算出得分,再根据策略权重比例算出节点分数,分数区间0~100,权重默认2 |
|
NodeResourcesBalancedAllocatio |
根据不同resource(cpu、mem、volume)对节点容量的占比再加上对应resource的权重得到分数,分数区间0~100,权重默认1 |
|
|
ImageLocality |
根据Pod中镜像大小以及镜像在所有节点上的分布来打分,分数区间0~100,权重默认1 |
|
|
InterPodAffinity |
根据插件权重算出得分,再根据策略权重比例算出节点分数,分数区间0~100,权重默认2 |
|
|
TaintToleration |
根据PreferNoSchedule策略算出分数,分数区间0~100,权重默认3 |
|
|
NodeResourcesFit |
三种策略:LeastAllocated(分配越少得分越高)、MostAllocated(分配越多得分越高)、RequestedToCapacityRatio(请求值与容量比率) |
|
|
PodTopologySpread |
根据拓扑匹配度和权重得出分数,分数区间0~100,权重默认2 |
3.1 kubernetes 1.23版本调度器filter阶段和score阶段源码分析

3.2 修改调度器插件默认权重示例
3.2.1 环境准备
环境:集群中有两个节点:k8s-0001和k8s-0002;已有工作负载nginx,调度至节点k8s-0002,工作负载test,yaml文件如下:
apiVersion: apps/v1
kind: Deployment
metadata:
name: test
spec:
selector:
matchLabels:
app: test
template:
metadata:
labels:
app: test
spec:
containers:
- name: container-1
image: nginx:latest
dnsPolicy: ClusterFirst
affinity:
nodeAffinity: #利用节点亲和使其调度至k8s-0001
preferredDuringSchedulingIgnoredDuringExecution:
- weight: 1
preference:
matchExpressions:
- key: kubernetes.io/hostname
operator: In
values:
- k8s-0001
podAffinity: #利用负载亲和使其调度至k8s-0002
preferredDuringSchedulingIgnoredDuringExecution:
- weight: 1
podAffinityTerm:
labelSelector:
matchExpressions:
- key: app
operator: In
values:
- nginx
namespaces:
- default
topologyKey: kubernetes.io/hostname
3.2.2 调整InterPodAffinity权重,使工作负载test调度至节点k8s-0002
apiVersion: v1
kind: ConfigMap
metadata:
name: scheduler-config
namespace: kube-system
data:
scheduler-config.yaml: |
apiVersion: kubescheduler.config.k8s.io/v1beta3 #1.23以上版本集群可用v1beta3
kind: KubeSchedulerConfiguration
profiles:
- schedulerName: default-scheduler
plugins:
score:
disabled:
- name: InterPodAffinity
- name: NodeAffinity
enabled:
- name: InterPodAffinity #提高负载亲和权重
weight: 100
- name: NodeAffinity
weight: 1
查看kube-scheduler调度日志,k8s-002 score得分为打分100 * 权重 100共得10000分,调度到k8s-002节点上

3.2.3 调整NodeAffinity权重,使工作负载test调度至节点k8s-0001
apiVersion: v1
kind: ConfigMap
metadata:
name: scheduler-config
namespace: kube-system
data:
scheduler-config.yaml: |
apiVersion: kubescheduler.config.k8s.io/v1beta3
kind: KubeSchedulerConfiguration
profiles:
- schedulerName: default-scheduler
plugins:
score:
disabled:
- name: InterPodAffinity
- name: NodeAffinity
enabled:
- name: InterPodAffinity
weight: 1
- name: NodeAffinity #提高节点亲和权重
weight: 100

聊聊kube-scheduler如何完成调度和调整调度权重的更多相关文章
- DS Scheduler 0.7 发布,Linux 调度系统 - 开源中国社区
DS Scheduler 0.7 发布,Linux 调度系统 - 开源中国社区 DS Scheduler 0.7 发布,Linux 调度系统
- Linux调度器 - deadline调度器
一.概述 实时系统是这样的一种计算系统:当事件发生后,它必须在确定的时间范围内做出响应.在实时系统中,产生正确的结果不仅依赖于系统正确的逻辑动作,而且依赖于逻辑动作的时序.换句话说,当系统收到某个请求 ...
- Kubernetes之调度器和调度过程
scheduler 当Scheduler通过API server 的watch接口监听到新建Pod副本的信息后,它会检查所有符合该Pod要求的Node列表,开始执行Pod调度逻辑.调度成功后将Pod绑 ...
- Linux进程核心调度器之主调度器schedule--Linux进程的管理与调度(十九)
主调度器 在内核中的许多地方, 如果要将CPU分配给与当前活动进程不同的另一个进程, 都会直接调用主调度器函数schedule, 从系统调用返回后, 内核也会检查当前进程是否设置了重调度标志TLF_N ...
- Linux核心调度器之周期性调度器scheduler_tick--Linux进程的管理与调度(十八)
我们前面提到linux有两种方法激活调度器:核心调度器和 周期调度器 一种是直接的, 比如进程打算睡眠或出于其他原因放弃CPU 另一种是通过周期性的机制, 以固定的频率运行, 不时的检测是否有必要 因 ...
- scrapy 基础组件专题(七):scrapy 调度器、调度器中间件、自定义调度器
一.调度器 配置 SCHEDULER = 'scrapy.core.scheduler.Scheduler' #表示scrapy包下core文件夹scheduler文件Scheduler类# 可以通过 ...
- Go语言调度器之主动调度(20)
本文是<Go语言调度器源代码情景分析>系列的第20篇,也是第五章<主动调度>的第1小节. Goroutine的主动调度是指当前正在运行的goroutine通过直接调用runti ...
- 重新梳理调度器——GMP 调度模型
调度器--GMP 调度模型 Goroutine 调度器,它是负责在工作线程上分发准备运行的 goroutines. 首先在讲 GMP 调度模型之前,我们先了解为什么会有这个模型,之前的调度模型是什么样 ...
- kubernetes 设置 Master 可调度与不可调度
kubernetes 设置 Master 可调度与不可调度 语法 kubectl taint node [node] key=value[effect] [effect] 可取值: [ NoSched ...
- SQLSERVER 数据调度示例,调度数据到中间表或者历史表
USE [MeiDongPay_Test] GO /****** Object: StoredProcedure [dbo].[Job_BatchTransferOrderToMidst] Scrip ...
随机推荐
- Jmeter MD5加密及其运用
常用的几种加密方式 内置函数__MD5加密 参数说明: String to calculate MD5 hash(必填):要加密的字符串 Name of variable in which to st ...
- RocketMQ 系列(二) 环境搭建
RocketMQ 系列(二) 环境搭建 上一个章节对于 RocketMQ 作了一些概念上的介绍,如果你对于 RocketMQ 没有概念,不妨先看RocketMQ系列(一) 基本介绍. 这个章节主要介绍 ...
- 浅谈Mysql读写分离的坑以及应对的方案
一.主从架构 为什么我们要进行读写分离?个人觉得还是业务发展到一定的规模,驱动技术架构的改革,读写分离可以减轻单台服务器的压力,将读请求和写请求分流到不同的服务器,分摊单台服务的负载,提高可用性,提高 ...
- windows无法连接VMware虚拟机的linux
遇到的问题:今天使用xshell连接虚拟机,无法连接. 解决过程: 1.测试ping, linux虚拟机能ping通windows主机,可是windows主机ping不通linux虚拟机. 2.查看v ...
- [初学C#] 第二习题 : 快递跟踪信息查询
刚学C#, 折腾的一个小玩意. 熟悉和了解C#这门编程语言. 没有啥特殊意义 解锁技能 - System.Net 的 WebRequest等http请求 - Newtonsoft.Json 这个第三方 ...
- c++中的数论知识
写在开头:word的公式打不上来,只能截图了 一.组合数学 (1) 加法定理与乘法原理 加法原理:做一件事情,完成它可以有n类办法,在第一类办法中有m1种不同的方法,在第二类办法中有m2种不同的方法, ...
- 升讯威在线客服系统的并发高性能数据处理技术:PLINQ并行查询技术
我在业余时间开发维护了一款免费开源的升讯威在线客服系统,也收获了许多用户.对我来说,只要能获得用户的认可,就是我最大的动力. 最近客服系统成功经受住了客户现场组织的压力测试,获得了客户的认可. 客户组 ...
- 介绍五个很实用的IDEA使用技巧
日常开发中,相信广大 Java 开发者都使用过 IntelliJ IDEA 作为开发工具,IntelliJ IDEA 是一款优秀的 Java 集成开发环境,它提供了许多强大的功能和快捷键,可以帮助开发 ...
- Vue element-ui 动态生成自定义table表头实现数据渲染
需求:1)表头的数据是动态的,有可能字段值很长且很多.解决方案自定义动态表头,字段长使用文字提示[el-tooltip组件]: 2)需要对表格data中的数据值进行枚举转成中文值,且显示不同的颜色. ...
- MySQL系列之——SQL介绍、常用SQL分类、数据类型、表属性、字符集、DDL应用、DCL应用、DML应用(增删改)、DQL应用(select )、元数据信息、show命令
文章目录 一 SQL介绍 二 常用SQL分类 2.1 客户端命令 三 数据类型.表属性.字符集 3.1 数据类型 3.1.1 作用 3.1.2 种类 3.2 表属性 3.2.1 列属性 3.2.2 表 ...