本文原始地址(gitbook格式):https://farmer-hutao.github.io/k8s-source-code-analysis/core/scheduler/scheduler-framework.html

本项目github地址:https://github.com/farmer-hutao/k8s-source-code-analysis

1. 写在前面

今天我们从pkg/scheduler/scheduler.go出发,分析Scheduler的整体框架。前面讲Scheduler设计的时候有提到过源码的3层结构,pkg/scheduler/scheduler.go也就是中间这一层,负责Scheduler除了具体node过滤算法外的工作逻辑~

这一层我们先尽可能找主线,顺着主线走通一遍,就像走一个迷宫,一条通路走出去后心里就有地了,但是迷宫中的很多角落是未曾涉足的。我们尽快走通主流程后,再就一些主要知识点专题攻破,比如k8s里面的List-Watch,Informer等好玩的东西。

2. 调度器启动运行

从goland的Structure中可以看到这个源文件(pkg/scheduler/scheduler.go)主要有这些对象:

大概浏览一下可以很快找到我们的第一个关注点应该是Scheduler这个struct和Scheduler的Run()方法:

pkg/scheduler/scheduler.go:58

// Scheduler watches for new unscheduled pods. It attempts to find
// nodes that they fit on and writes bindings back to the api server.
type Scheduler struct {
config *factory.Config
}
Copy

这个struct在上一讲有跟到过,代码注释说的是:

Scheduler watch新创建的未被调度的pods,然后尝试寻找合适的node,回写一个绑定关系到api server.

这个注释有个小问题就是用了复数形式,其实最后过滤出来的只有一个node;当然这种小问题知道就好,提到github上人家会觉得你在刷commit.接着往下看,Scheduler绑定了一个Run()方法,如下:

pkg/scheduler/scheduler.go:276

// Run begins watching and scheduling. It waits for cache to be synced, then starts a goroutine and returns immediately.
func (sched *Scheduler) Run() {
if !sched.config.WaitForCacheSync() {
return
}
go wait.Until(sched.scheduleOne, 0, sched.config.StopEverything)
}
Copy

注释说这个函数开始watching and scheduling,也就是调度器主要逻辑了!注释后半段说到Run()方法起了一个goroutine后马上返回了,这个怎么理解呢?我们先看一下调用Run的地方:

cmd/kube-scheduler/app/server.go:240

    // Prepare a reusable runCommand function.
run := func(ctx context.Context) {
sched.Run()
<-ctx.Done()
}
Copy

可以发现调用了sched.Run()之后就在等待ctx.Done()了,所以Run中启动的goroutine自己不退出就ok.

wait.Until这个函数做的事情是:每隔n时间调用f一次,除非channel c被关闭。这里的n就是0,也就是一直调用,前一次调用返回下一次调用就开始了。这里的f当然就是sched.scheduleOne,c就是sched.config.StopEverything.

3. 一个pod的调度流程

于是我们的关注点就转到了sched.scheduleOne这个方法上,看一下:

scheduleOne does the entire scheduling workflow for a single pod. It is serialized on the scheduling algorithm's host fitting.

注释里说scheduleOne实现1个pod的完整调度工作流,这个过程是顺序执行的,也就是非并发的。结合前面的wait.Until逻辑,也就是说前一个pod的scheduleOne一完成,一个return,下一个pod的scheduleOne立马接着执行!

这里的串行逻辑也好理解,如果是同时调度N个pod,计算的时候觉得一个node很空闲,实际调度过去启动的时候发现别人的一群pod先起来了,端口啊,内存啊,全给你抢走了!所以这里的调度算法执行过程用串行逻辑很好理解。注意哦,调度过程跑完不是说要等pod起来,最后一步是写一个binding到apiserver,所以不会太慢。下面我们看一下scheduleOne的主要逻辑:

pkg/scheduler/scheduler.go:513

func (sched *Scheduler) scheduleOne() {
pod := sched.config.NextPod()
suggestedHost, err := sched.schedule(pod)
if err != nil {
if fitError, ok := err.(*core.FitError); ok {
preemptionStartTime := time.Now()
sched.preempt(pod, fitError)
}
return
}
assumedPod := pod.DeepCopy()
allBound, err := sched.assumeVolumes(assumedPod, suggestedHost)
err = sched.assume(assumedPod, suggestedHost)
go func() {
err := sched.bind(assumedPod, &v1.Binding{
ObjectMeta: metav1.ObjectMeta{Namespace: assumedPod.Namespace, Name: assumedPod.Name, UID: assumedPod.UID},
Target: v1.ObjectReference{
Kind: "Node",
Name: suggestedHost,
},
})
}()
}
Copy

上面几行代码只保留了主干,对于我们理解scheduleOne的过程足够了,这里来个流程图吧:

不考虑scheduleOne的所有细节和各种异常情况,基本是上图的流程了,主流程的核心步骤当然是suggestedHost, err := sched.schedule(pod)这一行,这里完成了不需要抢占的场景下node的计算,我们耳熟能详的预选过程,优选过程等就是在这里面。

4. 潜入第三层前的一点逻辑

ok,这时候重点就转移到了suggestedHost, err := sched.schedule(pod)这个过程,强调一下这个过程是“同步”执行的。

pkg/scheduler/scheduler.go:290

// schedule implements the scheduling algorithm and returns the suggested host.
func (sched *Scheduler) schedule(pod *v1.Pod) (string, error) {
host, err := sched.config.Algorithm.Schedule(pod, sched.config.NodeLister)
if err != nil {
pod = pod.DeepCopy()
sched.config.Error(pod, err)
sched.config.Recorder.Eventf(pod, v1.EventTypeWarning, "FailedScheduling", "%v", err)
sched.config.PodConditionUpdater.Update(pod, &v1.PodCondition{
Type: v1.PodScheduled,
Status: v1.ConditionFalse,
LastProbeTime: metav1.Now(),
Reason: v1.PodReasonUnschedulable,
Message: err.Error(),
})
return "", err
}
return host, err
}
Copy

schedule方法很简短,我们关注一下第一行,调用sched.config.Algorithm.Schedule()方法,入参是pod和nodes,返回一个host,继续看一下这个Schedule方法:

pkg/scheduler/algorithm/scheduler_interface.go:78

type ScheduleAlgorithm interface {
Schedule(*v1.Pod, NodeLister) (selectedMachine string, err error)
Preempt(*v1.Pod, NodeLister, error) (selectedNode *v1.Node, preemptedPods []*v1.Pod, cleanupNominatedPods []*v1.Pod, err error)
Predicates() map[string]FitPredicate
Prioritizers() []PriorityConfig
}
Copy

发现是个接口,这个接口有4个方法,实现ScheduleAlgorithm接口的对象意味着知道如何调度pods到nodes上。默认的实现是pkg/scheduler/core/generic_scheduler.go:98 genericScheduler这个struct.我们先继续看一下ScheduleAlgorithm接口定义的4个方法:

  • Schedule() //给定pod和nodes,计算出一个适合跑pod的node并返回;
  • Preempt() //抢占
  • Predicates() //预选
  • Prioritizers() //优选

前面流程里讲到的sched.config.Algorithm.Schedule()也就是genericScheduler.Schedule()方法了,这个方法位于:pkg/scheduler/core/generic_scheduler.go:139一句话概括这个方法就是:尝试将指定的pod调度到给定的node列表中的一个,如果成功就返回这个node的名字。最后看一眼签名:

func (g *genericScheduler) Schedule(pod *v1.Pod, nodeLister algorithm.NodeLister) (string, error)
Copy

从如参和返回值其实可以猜到很多东西,行,今天就到这里,具体的逻辑下回我们再分析~

《k8s-1.13版本源码分析》-调度器框架的更多相关文章

  1. 《k8s-1.13版本源码分析》-调度预选

    本文大纲 预选流程 predicate的并发 一个node的predicate predicates的顺序 单个predicate执行过程 具体的predicate函数 本系列文章已经开源到githu ...

  2. 《k8s-1.13版本源码分析》-抢占调度

    源码分析系列文章已经开源到github,地址如下: github:https://github.com/farmer-hutao/k8s-source-code-analysis gitbook:ht ...

  3. 《k8s-1.13版本源码分析》-调度器初始化

    源码分析系列文章已经开源到github,地址如下: github:https://github.com/farmer-hutao/k8s-source-code-analysis gitbook:ht ...

  4. 《k8s-1.13版本源码分析》-调度优选

    源码分析系列文章已经开源到github,地址如下: github:https://github.com/farmer-hutao/k8s-source-code-analysis gitbook:ht ...

  5. 《k8s-1.13版本源码分析》- 调度器设计

    本文原始地址:https://farmer-hutao.github.io/k8s-source-code-analysis/core/scheduler/desigh.html github项目地址 ...

  6. 《k8s-1.13版本源码分析》-源码调试

    源码分析系列文章已经开源到github,地址如下: github:https://github.com/farmer-hutao/k8s-source-code-analysis gitbook:ht ...

  7. 《k8s-1.13版本源码分析》- Scheduler启动前逻辑

    本文原始地址(gitbook格式):https://farmer-hutao.github.io/k8s-source-code-analysis/core/scheduler/before-sche ...

  8. 《k8s-1.13版本源码分析》- Informer 机制

    源码分析系列文章已经开源到github,地址如下: github:https://github.com/farmer-hutao/k8s-source-code-analysis gitbook:ht ...

  9. 《k8s-1.13版本源码分析》上github

    要干嘛? 猪年新气象,今年开始,kubernetes源码分析系列文章主战场从微信公众号转至github,完全使用Markdown重写,使用gitbook生成web页面,支持在线阅读,导出pdf等各种玩 ...

随机推荐

  1. Python学习 Part3:数据结构

    Python学习 Part3:数据结构 1. 深入列表: 所有的列表对象方法 list.append(x): 在列表的末尾添加一个元素 list.extend(L): 在列表的末尾添加一个指定列表的所 ...

  2. maven工程,java代码加载resources下面资源文件的路径

    1 通过类加载器加载器, 1. URL resource = TestMain.class.getResource("/18500228040.txt");File file = ...

  3. ubuntu18.04安装安装JDK

    1.前提准备: 下载JDK:http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html 2. ...

  4. 利用vue-router和compoment重构代码--踩坑(一)

    业务主要功能 获取所有的数据库列表 点击某一个数据库列表的时候,右侧分页展示数据 点击右侧某一条数据的时候,现实数据详情 以下是之前的页面,存在以下问题: 前段开发没有工程化(webpack) 主要功 ...

  5. 【Lua】特性和一些基础语法

    在Lua中,你可以使用单行注释和多行注释. 单行注释中,连续两个减号"--"表示注释的开始,一直延续到行末为止.相当于C++语言中的"//". 多行注释中,由& ...

  6. Spring Boot全局支持CORS(跨源请求)的配置方法

    http://blog.csdn.net/zhangchao19890805/article/details/53893735

  7. SSM-MyBatis-01:IDEA的安装,永久注册和简单的MyBatis用例

    一,IDEA的安装和永久注册 1.安装: 那到安装包,下一步,选路径,上面可以选操作系统64/32位,下面是程序的默认打开方式,可以不必勾选,也可以全选 路径一定不包含中文,重点 2.永久注册: 将此 ...

  8. tkinter中entry输入控件(四)

    entry控件 import tkinter wuya = tkinter.Tk() wuya.title("wuya") wuya.geometry("300x200+ ...

  9. 玩转CSS3(二)---CSS3实现瀑布布局

    请珍惜小编劳动成果,该文章为小编原创,转载请注明出处. 觉得腾讯微博微频道里的那种布局方式很好,在这里利用CSS3简单的实现了一下. 先上一张效果图: 代码: pubu.css /* CSS Docu ...

  10. python之six用法

    six.PY2 返回一个表示当前运行环境是否为python2的boolean值 six.PY3 返回一个表示当前运行环境是否为python3的boolean值 import six,sys print ...