概述

QoS是Quality of Service的缩写,即服务质量。每个pod属于某一个QoS分类,而Kubernetes会根据pod的QoS级别来决定pod的调度、抢占调度和驱逐优先级,而且pod的QoS级别也影响oomkiller对杀死进程的选择。

pod QoS级别

QoS主要分为GuaranteedBurstableBest-Effort三个级别,优先级从高到低。

怎么决定某个pod属于哪个QoS分类呢?根据pod yaml中的cpu和内存资源定义决定。

Guaranteed

同时满足以下情形的pod属于Guaranteed级别:

(1)pod中的所有容器都设置了cpu的request、limit值;

(2)pod中每个容器的cpu的request值与limit值都相等;

(1)pod中的所有容器都设置了内存的request、limit值;

(2)pod中每个容器的内存的request值与limit值都相等;

...
containers:
- name: test-a
resources:
limits:
cpu: 10m
memory: 1Gi
requests:
cpu: 10m
memory: 1Gi
...
- name: test-b
resources:
limits:
cpu: 100m
memory: 100Mi
requests:
cpu: 100m
memory: 100Mi
...

Burstable

同时满足以下情形的pod属于Burstable级别:

(1)pod不符合Guaranteed的QoS级别标准;

(2)pod中至少有一个容器设置了内存或cpu的request或limit值;

...
containers:
- name: test-a
...
- name: test-b
resources:
limits:
memory: 200Mi
requests:
memory: 100Mi
...

Best-Effort

同时满足以下情形的pod属于Best-Effort级别:

(1)pod中的所有容器都没有设置内存的request与limit;

(2)pod中的所有容器都没有设置cpu的request与limit;

...
containers:
- name: test-a
...
- name: test-b
...

kubelet驱逐pod顺序

kubelet不使用pod的QoS级别来确定驱逐顺序,但注意,Guaranteed级别QoS的pod不会被驱逐。

当node节点内存资源不足时,会触发kubelet的节点压力驱逐,pod驱逐顺序选择如下(排在前面的优先被驱逐):

(1)先根据pod的内存使用量是否超过内存request排序,超过的排在前面;

(2)再根据pod的priority值大小排序,值小的排在前面;

(3)最后根据pod内存request值减去pod的内存使用量的值,得到值小的排在前面;

关于pod的priority

通过pod.spec.priorityClassNamepod.spec.priority可为pod设置priority值大小,另外,Guaranteed级别QoS的pod也会间接设置priority值;

pod的priority值大小会影响kubelet驱逐pod的顺序,还会影响kube-scheduler对于pod调度、抢占调度的优先级顺序:

(1)当kubelet驱逐pod时,pod其他条件相同的情况下,priority值越小的越容易被驱逐;

(2)priority值越大,kube-scheduler对于pod调度的优先级越高;

(3)当pod因资源不足而调度失败时,kube-scheduler会抢占调度该pod,即将priority值比它小的pod驱逐掉,然后将该pod调度上去;

详细内容请查看官方文档:https://kubernetes.io/zh/docs/concepts/scheduling-eviction/pod-priority-preemption/

OOM killer机制

当kubelet没来得及触发pod驱逐,使得节点内存耗尽时,将触发节点上的OOM killer机制;

Linux上有个机制叫OOM killerOut Of Memory killer),这个机制会在系统内存耗尽的情况下发挥作用,即根据一定的算法规则,选择性的杀死一些进程,以释放部分内存,让系统继续稳定运行。

如何选择杀死哪个进程

当发生oomkill时,OOM killer给进程打分,得到oom_score,然后优先把oom_score最大的进程先杀死;

oom_score怎么计算获得呢?oom_score=oom_score_adj+进程内存占用大小

oom_score_adj则是可以人工给每个进程设置的,从而让用户通过设置进程的oom_score_adj值来影响OOM killer杀死进程的选择;

oom_score_adj的值设置为-1000时,表示该进程将不会被OOM killer杀死,但如果设置的值不是-1000,那这个进程还是会参与打分,会受oom_score_adj以及进程内存占用大小的影响,需要注意的是,即使oom_score_adj的值设置的很小,比如-999,但当你的进程占用内存很大时,该进程同样有很大的概率会被杀死;

pod中容器进程的oom_score_adj

对于Guaranteed级别的pod,其oom_score_adj的值被设置为-998,对于Best-Effort级别的pod,其oom_score_adj的值被设置为1000,对于Burstable级别的pod,其oom_score_adj的取值为2到999。

怎么避免OOM Killer杀死某个业务进程?

(1)将进程oom_score_adj的值设置为-1000;

(2)关闭OOM killer机制;

pod抢占调度

pod抢占调度机制,解决的是 Pod 调度失败时该怎么办的问题。

正常情况下,当一个 pod 调度失败后,就会被暂时 “搁置” 处于 pending 状态,直到 pod 被更新或者集群状态发生变化,调度器才会对这个 pod 进行重新调度。

但是有的时候,我们希望给pod分等级,即分优先级。当一个高优先级的 Pod 调度失败后,该 Pod 并不会被“搁置”,而是会“挤走”某个 Node 上的一些低优先级的 Pod(请求apiserver,删除pod),这样一来就可以保证高优先级 Pod 会优先调度成功。

这里所讲的优先级就是前面提到的pod的priority值大小。

关于pod优先级,具体请参考:https://kubernetes.io/zh/docs/concepts/scheduling-eviction/pod-priority-preemption/

抢占发生的原因,一定是一个高优先级的 pod 调度失败,我们称这个 pod 为“抢占者”,称被抢占的 pod 为“牺牲者”(victims)。

k8s QoS与pod驱逐的更多相关文章

  1. 如何为k8s中的pod配置QoS等级?

    1.概述 本文介绍如何为pod分配特定的QoS等级. 我们知道,在k8s的环境中,通过使用QoS等级来做决定,在资源紧张的时候,将哪些的pod进行驱逐,或者说如何对pod进行调度. OK,话不多说,让 ...

  2. 十六, k8s集群资源需求和限制, 以及pod驱逐策略。

    目录 容器的资源需求和资源限制 QoS Classes分类 Guaranteed Burstable Best-Effort kubernetes之node资源紧缺时pod驱逐机制 Qos Class ...

  3. k8s 应用优先级,驱逐,波动,动态资源调整

    k8s 应用优先级,驱逐,波动,动态资源调整 应用优先级 Requests 和 Limits 的配置除了表明资源情况和限制资源使用之外,还有一个隐藏的作用:它决定了 Pod 的 QoS 等级. 上一节 ...

  4. k8s学习 - 概念 - Pod

    k8s学习 - 概念 - Pod 这篇继续看概念,主要是 Pod 这个概念,这个概念非常重要,是 k8s 集群的最小单位. 怎么才算是理解好 pod 了呢,基本上把 pod 的所有 describe ...

  5. Kubernetes Pod 驱逐详解

    原文链接:Kubernetes Pod 驱逐详解 在 Kubernetes 中,Pod 使用的资源最重要的是 CPU.内存和磁盘 IO,这些资源可以被分为可压缩资源(CPU)和不可压缩资源(内存,磁盘 ...

  6. kubernetes之node资源紧缺时pod驱逐机制

    在系统硬件资源紧缺的情况下保证node的稳定性, 是kubelet需要解决的一个重要问题 1.驱逐策略 kubelet持续监控主机的资源使用情况, 一旦出现资源紧缺的迹象, kubelet就会主动终止 ...

  7. Kubernetes Pod驱逐策略

    Kubelet 能够主动监测和防止计算资源的全面短缺. 在资源短缺的情况下,kubelet 可以主动地结束一个或多个 Pod 以回收短缺的资源. 当 kubelet 结束一个 Pod 时,它将终止 P ...

  8. K8s之实践Pod深入理解

      K8s之实践Pod深入理解 1.同一pod下的nginx+php+mysql nginx+php+mysql.yaml文件 --- apiVersion: v1 kind: Secret meta ...

  9. k8s 中的 Pod 细节了解

    k8s中Pod的理解 基本概念 k8s 为什么使用 Pod 作为最小的管理单元 如何使用 Pod 1.自主式 Pod 2.控制器管理的 Pod 静态 Pod Pod的生命周期 Pod 如何直接暴露服务 ...

随机推荐

  1. 使用VPLS跨地域多站点建立二层交换网络

    VLL解决方案 https://www.cnblogs.com/darkchen/p/14652540.html 接上篇文档引出VPLS VLL可以跨地域建立二层交换网络,但有个缺陷是只支持两个sit ...

  2. Linux篇-mysql + keepalived高可用

    1上次说过了mysql的主从配置 tar zxf keepalived-1.2.7.tar.gz cd keepalived-1.2.7 yum install gcc gcc-c++ yum ins ...

  3. Python <算法思想集结>之初窥基础算法

    1. 前言 数据结构和算法是程序的 2 大基础结构,如果说数据是程序的汽油,算法则就是程序的发动机. 什么是数据结构? 指数据在计算机中的存储方式,数据的存储方式会影响到获取数据的便利性. 现实生活中 ...

  4. Spark: 单词计数(Word Count)的MapReduce实现(Java/Python)

    1 导引 我们在博客<Hadoop: 单词计数(Word Count)的MapReduce实现 >中学习了如何用Hadoop-MapReduce实现单词计数,现在我们来看如何用Spark来 ...

  5. Three.js 打造缤纷夏日3D梦中情岛 🌊

    声明:本文涉及图文和模型素材仅用于个人学习.研究和欣赏,请勿二次修改.非法传播.转载.出版.商用.及进行其他获利行为. 背景 深居内陆的人们,大概每个人都有过大海之梦吧.夏日傍晚在沙滩漫步奔跑:或是在 ...

  6. 原理:C++为什么一般把模板实现放入头文件

    写在前面 本文通过实例分析与讲解,解释了为什么C++一般将模板实现放在头文件中.这主要与C/C++的编译机制以及C++模板的实现原理相关,详情见正文.同时,本文给出了不将模板实现放在头文件中的解决方案 ...

  7. linux 查询文件命令

    jps; 当前服务器中所有的java进程: jps |grep XXX; 查询当前服务器某个进程: locate xxx;查询某个文件的位置:

  8. ShardingSphere-proxy-5.0.0分布式雪花ID生成(三)

    一.目的 保证在分库分表中每条数据具有唯一性 二.修改配置文件config-sharding.yaml,并重启服务 # # Licensed to the Apache Software Founda ...

  9. css做旋转相册效果

    css做旋转相册效果 <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> &l ...

  10. sql server 开启一个事务

    开启事务,回滚 /*============================================================== */ /* Date : 2020年11月18日 11 ...