Pod被驱逐的原因主要有以下几点:

  1. 资源不足:当节点资源(如CPU、内存、存储等)不足以满足Pod的资源需求时,调度器会选择将其中一个或多个Pod驱逐出节点,以便在资源有限的节点上安排新的Pod。
  2. 超出资源限制:Pod可以指定资源上限,如CPU和内存的限制。如果Pod使用的资源超过了所指定的限制,该Pod可能会被驱逐。
  3. 节点压力驱逐:Kubernetes会不断检查资源使用情况,当节点压力过大的时候,会触发节点压力驱逐。例如,当nodefs(节点文件系统)使用量达到阈值时,kubelet会拒绝在该节点上运行新Pod,并尝试删除已死亡的Pod和容器来回收磁盘空间。如果此时nodefs使用量仍然没有低于阈值,kubelet就会开始驱逐Pod。
  4. 镜像拉取失败:如果Pod所需的镜像无法拉取或拉取失败,Kubernetes可能会重试一定次数后将其标记为“Evicted”状态,即被驱逐。

此外,Pod被驱逐的原因还可能与Pod的优先级和服务质量(QoS)有关。在抢占式驱逐中,kube-scheduler会检查是否通过驱逐一些优先级较低的Pod,以保障新的Pod可以调度。

请注意,Pod被驱逐是一种保护机制,旨在确保Kubernetes集群的稳定运行和资源的合理利用。但是,驱逐操作可能会导致Pod中的数据丢失或服务中断,因此在设计应用时需要考虑到这一点,并采取相应的措施来避免或减少影响。

要避免Pod被驱逐导致的服务中断,可以采取以下措施:

  1. 资源限制与预留

    • 为Pod设置合适的资源请求(requests)和限制(limits),确保Pod有足够的资源运行,同时避免资源浪费。
    • 考虑为关键服务预留节点资源,确保这些服务在资源紧张时不会被驱逐。
  2. Pod优先级与抢占策略

    • 根据服务的重要性和优先级priorityClassName,为Pod设置不同的优先级。这样,在资源不足时,优先级较低的Pod会首先被驱逐,从而保护优先级较高的服务。
    • 谨慎使用抢占策略preemptionPolicy,确保在驱逐Pod之前已经充分评估了其对服务的影响。
  3. PodDisruptionBudget(PDB)

    • 使用PodDisruptionBudget来限制可以驱逐的Pod数量,确保服务在升级或维护过程中仍有一定的容错能力。

    • 根据服务的实际需求和可用性要求,设置合适的PDB值。

  4. 滚动升级与蓝绿部署

    • 采用滚动升级策略,逐步更新Pod,以减少同时被驱逐的Pod数量,降低服务中断的风险。
    • 考虑使用蓝绿部署,通过同时运行新旧版本的服务,确保在升级过程中服务不中断。
  5. 监控与告警

    • 实时监控Pod的状态和节点资源使用情况,及时发现潜在的资源不足问题。
    • 设置告警规则,当节点资源使用率达到一定阈值时,及时通知相关人员进行处理。
  6. 备份与恢复策略

    • 为Pod数据设置备份策略,定期备份数据以防止数据丢失,可使用velero。
    • 在Pod被驱逐后,尽快恢复服务并恢复数据,以减少服务中断的影响。

通过综合考虑以上措施,可以有效降低Pod被驱逐导致的服务中断风险。同时,需要根据具体的应用场景和需求来定制合适的策略。

pod为什么会被驱逐及如何避免pod被驱逐导致的服务中断的更多相关文章

  1. k8s驱逐篇(2)-kubelet节点压力驱逐

    kubelet节点压力驱逐 kubelet监控集群节点的 CPU.内存.磁盘空间和文件系统的inode 等资源,根据kubelet启动参数中的驱逐策略配置,当这些资源中的一个或者多个达到特定的消耗水平 ...

  2. k8s驱逐篇(3)-kubelet节点压力驱逐-源码分析篇

    kubelet节点压力驱逐-概述 kubelet监控集群节点的 CPU.内存.磁盘空间和文件系统的inode 等资源,根据kubelet启动参数中的驱逐策略配置,当这些资源中的一个或者多个达到特定的消 ...

  3. pod(五):pod hook(pod钩子)和优雅的关闭nginx pod

    目录 一.系统环境 二.前言 三.pod hook(pod钩子) 四.如何优雅的关闭nginx pod 一.系统环境 服务器版本 docker软件版本 Kubernetes(k8s)集群版本 CPU架 ...

  4. k8s驱逐篇(4)-kube-scheduler抢占调度驱逐

    介绍kube-scheduler抢占调度驱逐之前,先简单的介绍下kube-scheduler组件: kube-scheduler简介 kube-scheduler组件是kubernetes中的核心组件 ...

  5. 【解决】Pod 状态一直 Terminating,Need to kill Pod

    偶然查看服务时发现有个单副本的 pod 一直处于Terminating状态,已达 8 天之久,且手动删除删除不掉 [appuser@lyj 2019-09-20 14:35:36 ~]$ kubect ...

  6. Kubernetes Pod 驱逐详解

    原文链接:Kubernetes Pod 驱逐详解 在 Kubernetes 中,Pod 使用的资源最重要的是 CPU.内存和磁盘 IO,这些资源可以被分为可压缩资源(CPU)和不可压缩资源(内存,磁盘 ...

  7. 十六, k8s集群资源需求和限制, 以及pod驱逐策略。

    目录 容器的资源需求和资源限制 QoS Classes分类 Guaranteed Burstable Best-Effort kubernetes之node资源紧缺时pod驱逐机制 Qos Class ...

  8. kubernetes之node资源紧缺时pod驱逐机制

    在系统硬件资源紧缺的情况下保证node的稳定性, 是kubelet需要解决的一个重要问题 1.驱逐策略 kubelet持续监控主机的资源使用情况, 一旦出现资源紧缺的迹象, kubelet就会主动终止 ...

  9. Kubernetes中 Pod 是怎样被驱逐的?

    前言 在 Kubernetes 中,Pod 使用的资源最重要的是 CPU.内存和磁盘 IO,这些资源可以被分为可压缩资源(CPU)和不可压缩资源(内存,磁盘 IO).可压缩资源不可能导致 Pod 被驱 ...

  10. Kubernetes Pod驱逐策略

    Kubelet 能够主动监测和防止计算资源的全面短缺. 在资源短缺的情况下,kubelet 可以主动地结束一个或多个 Pod 以回收短缺的资源. 当 kubelet 结束一个 Pod 时,它将终止 P ...

随机推荐

  1. 常见的WCF面试问题

    WCF和ASMX WebService的区别是什么? 最基本的区别在于,ASMX或者ASP.NET WebService是用来通过基于HTTP的SOAP来实现通讯.但WCF可以使用任意协议(HTTP, ...

  2. 在K8s中,提供的DNS组件是什么?有什么特性?

    在Kubernetes (K8s)集群中,用于内部DNS服务的组件已经从早期的kube-dns过渡到了coredns. kube-dns(已弃用): 在Kubernetes 1.10版本之前,kube ...

  3. Exadata健康检查工具EXAchk

    本文根据MOS文章:Oracle Exadata Database Machine EXAchk (Doc ID 1070954.1)整理关键步骤. 注:通常都会要求使用当前最新可用的EXAchk版本 ...

  4. Java线上代码热修复的一些积累

    工具:Arthas 参考文章: https://blog.csdn.net/Admire_an/article/details/99768393 https://www.cnkirito.moe/ar ...

  5. Java 封装、继承、多态的理解

    更好的阅读体验:Java 封装.继承.多态的理解 1.封装 封装:就是隐藏对象的属性和实现细节,仅对外提供公共访问方式.让使用者知道的才暴露出来,不需要让使用者知道的全部隐藏起来 封装的好处:避免使用 ...

  6. MySQL基础之DDL语句

    讲解SQL语句三大分类和每个分类的SQL使用入门. 使用的是数据库是:MySQL 8.0.27 1.SQL分类   DDL(Data Definition Language)语句:数据定义语句. 用途 ...

  7. SVN培训笔记(下拉项目、同步修改、添加文件、修改文件、删除文件、改名文件等)

    前言   为了方便新加入团队的员工熟悉团队协作开发.  为了将好东西整理分享给有需要的网友.  将SVN内部员工培训文档公开,以方便更多的人,提高知识获取速度,尽快熟悉协同开发.  本文档培训员工对于 ...

  8. 无法加载 DLL“librdkafka”: 找不到指定的模块。 (异常来自 HRESULT:0x8007007E)

    我这个错误是在引用了封装kafka项目的情况下提示的. 解决方案:在本项目里面安装 RdKafka ,再次运行就好了.

  9. 第119篇: JavaScript 类

    好家伙,我们先来复习一下   关于Java,类的三大特征: 1.封装,也就是把客观事物封装成抽象的类,并且类可以把自己的数据和方法只让可信的类或者对象操作,对不可信的进行信息隐藏. 2.继承,继承性更 ...

  10. 【Azure K8S | AKS】在中国区AKS上遇见ImagePullBackOff时的替代方案

    问题描述 在AKS集群中部署calico时候,遇见 ImagePullBackOff 问题. 在创建POD calico-typha-horizontal-autoscale 时候遇见拉取镜像失败问题 ...