本文原始地址:https://farmer-hutao.github.io/k8s-source-code-analysis/core/scheduler/desigh.html

github项目地址:https://github.com/farmer-hutao/k8s-source-code-analysis

1. 概述

我们先整体了解一下Scheduler的设计原理,然后再看这些过程是如何用代码实现的。关于调度器的设计在官网有介绍,我下面结合官网给的说明,简化掉不影响理解的复杂部分,和大家介绍一下Scheduler的工作过程。

英文还可以的小伙伴们可以看一下官网的介绍先:scheduler.md

官网有一段描述如下:

The Kubernetes scheduler runs as a process alongside the other master components such as the API server. Its interface to the API server is to watch for Pods with an empty PodSpec.NodeName, and for each Pod, it posts a binding indicating where the Pod should be scheduled.

简单翻译一下,也就是说Scheduler是一个跑在其他组件边上的独立程序,对接Apiserver寻找PodSpec.NodeName为空的Pod,然后用post的方式发送一个api调用,指定这些pod应该跑在哪个node上。

通俗地说,就是scheduler是相对独立的一个组件,主动访问api server,寻找等待调度的pod,然后通过一系列调度算法寻找哪个node适合跑这个pod,然后将这个pod和node的绑定关系发给api server,从而完成了调度的过程。

2. 源码层级

从高level看,scheduler的源码可以分为3层:

  • cmd/kube-scheduler/scheduler.go: main() 函数入口位置,在scheduler过程开始被调用前的一系列初始化工作。
  • pkg/scheduler/scheduler.go: 调度框架的整体逻辑,在具体的调度算法之上的框架性的代码。
  • pkg/scheduler/core/generic_scheduler.go: 具体的计算哪些node适合跑哪些pod的算法。

3. 调度算法

调度过程整体如下图所示(官文里这个图没对齐,逼疯强迫症了!!!当然由于中文显示的问题,下图有中文的行也没法完全对齐,这个地方让我很抓狂。。。):

对于一个给定的pod
+---------------------------------------------+
| 可用于调度的nodes如下: |
| +--------+ +--------+ +--------+ |
| | node 1 | | node 2 | | node 3 | |
| +--------+ +--------+ +--------+ |
+----------------------+----------------------+
|
v
+----------------------+----------------------+
初步过滤: node 3 资源不足
+----------------------+----------------------+
|
v
+----------------------+----------------------+
| 剩下的nodes: |
| +--------+ +--------+ |
| | node 1 | | node 2 | |
| +--------+ +--------+ |
+----------------------+----------------------+
|
v
+----------------------+----------------------+
优先级算法计算结果: node 1: 分数=2
node 2: 分数=5
+----------------------+----------------------+
|
v
选择分值最高的节点 = node 2

Scheduler为每个pod寻找一个适合其运行的node,大体分成三步:

  1. 通过一系列的“predicates”过滤掉不能运行pod的node,比如一个pod需要500M的内存,有些节点剩余内存只有100M了,就会被剔除;
  2. 通过一系列的“priority functions”给剩下的node排一个等级,分出三六九等,寻找能够运行pod的若干node中最合适的一个node;
  3. 得分最高的一个node,也就是被“priority functions”选中的node胜出了,获得了跑对应pod的资格。

4. Predicates 和 priorities 策略

Predicates是一些用于过滤不合适node的策略 . Priorities是一些用于区分node排名(分数)的策略(作用在通过predicates过滤的node上). K8s默认内建了一些predicates 和 priorities 策略,官方文档介绍地址: scheduler_algorithm.md. Predicates 和 priorities 的代码分别在:

  • pkg/scheduler/algorithm/predicates/predicates.go
  • pkg/scheduler/algorithm/priorities.

5. Scheduler 的拓展性

我们可以选择哪些预置策略生效,也可以添加自己的策略。几个月前我司有个奇葩调度需求,当时我就是通过增加一个priorities策略,然后重新编译了一个Scheduler来实现的需求。

6. 调度策略的修改

默认调度策略是通过defaultPredicates() 和 defaultPriorities()函数定义的,源码在 pkg/scheduler/algorithmprovider/defaults/defaults.go,我们可以通过命令行flag --policy-config-file来覆盖默认行为。所以我们可以通过配置文件的方式或者修改pkg/scheduler/algorithm/predicates/predicates.go/pkg/scheduler/algorithm/priorities,然后注册到defaultPredicates()/defaultPriorities()来实现。配置文件类似下面这个样子:

{
"kind" : "Policy",
"apiVersion" : "v1",
"predicates" : [
{"name" : "PodFitsHostPorts"},
{"name" : "PodFitsResources"},
{"name" : "NoDiskConflict"},
{"name" : "NoVolumeZoneConflict"},
{"name" : "MatchNodeSelector"},
{"name" : "HostName"}
],
"priorities" : [
{"name" : "LeastRequestedPriority", "weight" : 1},
{"name" : "BalancedResourceAllocation", "weight" : 1},
{"name" : "ServiceSpreadingPriority", "weight" : 1},
{"name" : "EqualPriority", "weight" : 1}
],
"hardPodAffinitySymmetricWeight" : 10,
"alwaysCheckAllPredicates" : false
}

ok,看到这里大伙应该在流程上对Scheduler的原理有个感性的认识了,下一节我们就开始看一下Scheduler源码是怎么写的。

《k8s-1.13版本源码分析》- 调度器设计的更多相关文章

  1. 《k8s-1.13版本源码分析》-调度器初始化

    源码分析系列文章已经开源到github,地址如下: github:https://github.com/farmer-hutao/k8s-source-code-analysis gitbook:ht ...

  2. 《k8s-1.13版本源码分析》-调度预选

    本文大纲 预选流程 predicate的并发 一个node的predicate predicates的顺序 单个predicate执行过程 具体的predicate函数 本系列文章已经开源到githu ...

  3. 《k8s-1.13版本源码分析》-抢占调度

    源码分析系列文章已经开源到github,地址如下: github:https://github.com/farmer-hutao/k8s-source-code-analysis gitbook:ht ...

  4. 《k8s-1.13版本源码分析》-调度器框架

    本文原始地址(gitbook格式):https://farmer-hutao.github.io/k8s-source-code-analysis/core/scheduler/scheduler-f ...

  5. 《k8s-1.13版本源码分析》-调度优选

    源码分析系列文章已经开源到github,地址如下: github:https://github.com/farmer-hutao/k8s-source-code-analysis gitbook:ht ...

  6. 《k8s-1.13版本源码分析》-源码调试

    源码分析系列文章已经开源到github,地址如下: github:https://github.com/farmer-hutao/k8s-source-code-analysis gitbook:ht ...

  7. 《k8s-1.13版本源码分析》- Scheduler启动前逻辑

    本文原始地址(gitbook格式):https://farmer-hutao.github.io/k8s-source-code-analysis/core/scheduler/before-sche ...

  8. 《k8s-1.13版本源码分析》- Informer 机制

    源码分析系列文章已经开源到github,地址如下: github:https://github.com/farmer-hutao/k8s-source-code-analysis gitbook:ht ...

  9. 《k8s-1.13版本源码分析》上github

    要干嘛? 猪年新气象,今年开始,kubernetes源码分析系列文章主战场从微信公众号转至github,完全使用Markdown重写,使用gitbook生成web页面,支持在线阅读,导出pdf等各种玩 ...

随机推荐

  1. 单片机开发——02工欲善其事必先利其器(Proteus软件安装破解)

    在单片机开发工程中,博主经常通过模拟软件Proteus进行模拟仿真,将编译生成的"HEX"文件下载在单片机芯片中,然后进行后期的debug工作,当模拟仿真完成之后,进行硬件测试部分 ...

  2. 0513JS数组的定义、遍历、添加

    |数组|-定义方式|--1.new Array();|----空数组|------var attr = new Array();|------lenght:0|------_proto_: Array ...

  3. javase---string类介绍01

    一.String类简介 java.lang.String类用于描述一个字符序列.String类是不可变对象的类.其对象一旦被创建,永远无法改变.但是对象的引用可以重新赋值.而且String类被fina ...

  4. RocketMQ部分数据消费不了问题排查

    问题现象 今天忽然收到RocketMQ预警信息如下: 提醒有部分数据没有消费,产生堆积情况. 打开RocketMq-Console-Ng查看如下图形式: 备注:第一反应是Consumer Group内 ...

  5. 去重是distinct还是group by?

    distinct简单来说就是用来去重的,而group by的设计目的则是用来聚合统计的,两者在能够实现的功能上有些相同之处,但应该仔细区分,因为用错场景的话,效率相差可以倍计. 单纯的去重操作使用di ...

  6. Js的String对象

    Js的String对象常用方法: 方法一.得到某字符在字符串中的索引位置. str.indexOf(findStr,[index])--返回的是要查找字符在字符串中的位置索引   ,index开始查找 ...

  7. Swagger使用教程大全,从入门到精通

    Swagger是遵守OpenAPI规范(OAS)的世界上最大的API框架开发工具,可在整个API生命周期内进行开发,从设计和文档到测试和部署.它提供了许多试用的工具来帮助开发者进行接口开发,如及时接口 ...

  8. Java线程的中断(Interruption)

    任务和线程的启动很容易.在大多数时候,我们都会让它们运行直到结束,或者让它们自行停止.然而,有时候我们希望提前结束任务或线程,或许是因为用户取消了操作,或者应用程序需要被快速关闭. 要使任务和线程能安 ...

  9. 许式伟:我与Go语言的这十年[转]

    2017-12-18 许式伟 Go中国 2007 年 9 月 20 日,关于设计一门全新语言的讨论正式开始,这门全新的语言,就是后来的 Go.时至今日,Go 语言已经发布到 1.9 版本,走过了整整十 ...

  10. 详解vue的diff算法

    前言 我的目标是写一个非常详细的关于diff的干货,所以本文有点长.也会用到大量的图片以及代码举例,目的让看这篇文章的朋友一定弄明白diff的边边角角. 先来了解几个点... 1. 当数据发生变化时, ...