最近在查看一个kubernetes集群中node not ready的奇怪现象,顺便阅读了一下kubernetes kube-controller-manager中管理node健康状态的组件node lifecycle controller。我们知道kubernetes是典型的master-slave架构,master node负责整个集群元数据的管理,然后将具体的启动执行pod的任务分发给各个salve node执行,各个salve node会定期与master通过心跳信息来告知自己的存活状态。其中slave node上负责心跳的是kubelet程序, 他会定期更新apiserver中node lease或者node status数据,然后kube-controller-manager会监听这些信息变化,如果一个node很长时间都没有进行状态更新,那么我们就可以认为该node发生了异常,需要进行一些容错处理,将该node上面的pod进行安全的驱逐,使这些pod到其他node上面进行重建。这部分工作是由node lifecycel controller模块负责。

在目前的版本(v1.16)中,默认开启了TaintBasedEvictions, TaintNodesByCondition这两个feature gate,则所有node生命周期管理都是通过condition + taint的方式进行管理。其主要逻辑由三部分组成:

  1. 不断地检查所有node状态,设置对应的condition
  2. 不断地根据node condition 设置对应的taint
  3. 不断地根据taint驱逐node上面的pod

一. 检查node状态

检查node状态其实就是循环调用monitorNodeHealth函数,该函数首先调用tryUpdateNodeHealth检查每个node是否还有心跳,然后判断如果没有心跳则设置对应的condtion。

node lifecycle controller内部会维护一个nodeHealthMap 数据结构来保存所有node的心跳信息,每次心跳之后都会更新这个结构体,其中最重要的信息就是每个node上次心跳时间probeTimestamp, 如果该timestamp很长时间都没有更新(超过--node-monitor-grace-period参数指定的值),则认为该node可能已经挂了,设置node的所有condition为unknown状态。

    gracePeriod, observedReadyCondition, currentReadyCondition, err = nc.tryUpdateNodeHealth(node)

tryUpdateNodeHealth传入的参数为每个要检查的node, 返回值中observedReadyCondition为当前从apiserver中获取到的数据,也就是kubelet上报上来的最新的node信息, currentReadyCondition为修正过的数据。举个例子,如果node很长时间没有心跳的话,observedReadyCondition中nodeReadyCondion为true, 但是currentReadyCondion中所有的conditon已经被修正的实际状态unknown了。

如果observedReadyCondition 状态为true, 而currentReadyCondition状态不为true, 则说明node状态状态发生变化,由ready变为not-ready。此时不光会更新node condition,还会将该node上所有的pod状态设置为not ready,这样的话,如果有对应的service资源选中该pod, 流量就可以从service上摘除了,但是此时并不会直接删除pod。

node lifecycle controller会根据currentReadyCondition的状态将该node加入到zoneNoExecuteTainter的队列中,等待后面设置taint。如果此时已经有了taint的话则会直接更新。zoneNoExecuteTainter队列的出队速度是根据node所处zone状态决定的,主要是为了防止出现集群级别的故障时,node lifecycle controller进行误判,例如交换机,loadbalancer等故障时,防止node lifecycle controller错误地认为所有node都不健康而大规模的设置taint进而导致错误地驱逐很多pod,造成更大的故障。

设置出队速率由handleDisruption函数中来处理,首先会选择出来各个zone中不健康的node, 并确定当前zone所处的状态。分为以下几种情况:

  • Initial: zone刚加入到集群中,初始化完成。
  • Normal: zone处于正常状态
  • FullDisruption: 该zone中所有的node都notReady了
  • PartialDisruption: 该zone中部分node notReady,此时已经超过了unhealthyZoneThreshold设置的阈值

对于上述不同状态所设置不同的rate limiter, 从而决定出队速度。该速率由函数setLimiterInZone决定具体数值, 具体规则是:

  1. 当所有zone都处于FullDisruption时,此时limiter为0
  2. 当只有部分zone处于FullDisruption时,此时limiter为正常速率: --node-eviction-rate
  3. 如果某个zone处于PartialDisruption时,则此时limiter为二级速率:--secondary-node-eviction-rate

二. 设置node taint

根据node condition设置taint主要由两个循环来负责, 这两个循环在程序启动后会不断执行:

  1. doNodeProcessingPassWorker中主要的逻辑就是: doNoScheduleTaintingPass, 该函数会根据node当前的condition设置unschedulable的taint,便于调度器根据该值进行调度决策,不再调度新pod至该node。
  2. doNoExecuteTaintingPass 会不断地从上面提到的zoneNoExecuteTainter队列中获取元素进行处理,根据node condition设置对应的NotReadyUnreachable的taint, 如果NodeReadycondition为false则taint为NotReady, 如果为unknown,则taint为Unreachable, 这两种状态只能同时存在一种!

上面提到从zoneNoExecuteTainter队列中出队时是有一定的速率限制,防止大规模快速驱逐pod。该元素是由RateLimitedTimedQueue数据结构来实现:

// RateLimitedTimedQueue is a unique item priority queue ordered by
// the expected next time of execution. It is also rate limited.
type RateLimitedTimedQueue struct {
queue UniqueQueue
limiterLock sync.Mutex
limiter flowcontrol.RateLimiter
}

从其定义就可以说明了这是一个 去重的优先级队列, 对于每个加入到其中的node根据执行时间(此处即为加入时间)进行排序,优先级队列肯定是通过heap数据结构来实现,而去重则通过set数据结构来实现。在每次doNoExecuteTaintingPass执行的时候,首先尽力从TokenBucketRateLimiter中获取token,然后从队头获取元素进行处理,这样就能控制速度地依次处理最先加入的node了。

三. 驱逐pod

在node lifecycle controller启动的时候,会启动一个NoExecuteTaintManager。 该模块负责不断获取node taint信息,然后删除其上的pod。

首先会利用informer会监听pod和node的各种事件,每个变化都会出发对应的update事件。分为两类: 1.优先处理nodeUpdate事件; 2.然后是podUpdate事件

  • 对于nodeUpdate事件,会首先获取该node的taint,然后获取该node上面所有的pod,依次对每个pod调用processPodOnNode: 判断是否有对应的toleration,如果没有则将其加入到对应的taintEvictionQueue中,该queue是个定时器队列,对于队列中的每个元素会有一个定时器来来执行,该定时器执行时间由toleration中的tolerationSecond进行设置。对于一些在退出时需要进行清理的程序,toleration必不可少,可以保证给容器退出时留下足够的时间进行清理或者恢复。 出队时调用的是回调函数deletePodHandler来删除pod。
  • 对于podUpdate事件则相对简单,首先获取所在的node,然后从taintNode map中获取该node的taint, 最后调用processPodOnNode,后面的处理逻辑就同nodeUpdate事件一样了。

为了加快处理速度,提高性能,上述处理会根据nodename hash之后交给多个worker进行处理。

上述就是controller-manager中心跳处理逻辑,三个模块层层递进,依次处理,最后将一个异常node上的pod安全地迁移。

kubernetes中node心跳处理逻辑分析的更多相关文章

  1. 【转】干货,Kubernetes中的Source Ip机制。

    准备工作 你必须拥有一个正常工作的 Kubernetes 1.5 集群,用来运行本文中的示例.该示例使用一个简单的 nginx webserver 回送它接收到的请求的 HTTP 头中的源 IP 地址 ...

  2. kubernetes中的Pause容器如何理解?

    前几篇文章都是讲的Kubernetes集群和相关组件的部署,但是部署只是入门的第一步,得理解其中的一些知识才行.今天给大家分享下Kubernets的pause容器的作用. Pause容器 全称infr ...

  3. Kubernetes中的RBAC

    Kubernetes中,授权有ABAC(基于属性的访问控制).RBAC(基于角色的访问控制).Webhook.Node.AlwaysDeny(一直拒绝)和AlwaysAllow(一直允许)这6种模式. ...

  4. 关于 Kubernetes 中的 Volume 与 GlusterFS 分布式存储

    容器中持久化的文件生命周期是短暂的,如果容器中程序崩溃宕机,kubelet 就会重新启动,容器中的文件将会丢失,所以对于有状态的应用容器中持久化存储是至关重要的一个环节:另外很多时候一个 Pod 中可 ...

  5. Kubernetes 中的核心组件与基本对象概述

    Kubernetes 是 Google 基于 Borg 开源的容器编排调度,用于管理容器集群自动化部署.扩容以及运维的开源平台.作为云原生计算基金会 CNCF(Cloud Native Computi ...

  6. 在Kubernetes中部署GlusterFS+Heketi

    目录 简介 Gluster-Kubernetes 部署 环境准备 下载相关文件 部署glusterfs 部署heketi server端 配置heketi client 简介 在上一篇<独立部署 ...

  7. Kubernetes中的亲和性与反亲和性

    通常情况下,Pod分配到哪些Node是不需要管理员操心的,这个过程会由scheduler自动实现.但有时,我们需要指定一些调度的限制,例如某些应用应该跑在具有SSD存储的节点上,有些应用应该跑在同一个 ...

  8. Kubernetes中的nodePort,targetPort,port的区别和意义(转)

    原文https://blog.csdn.net/u013760355/article/details/70162242 https://blog.csdn.net/xinghun_4/article/ ...

  9. Kubernetes中pod创建流程

    转自:https://blog.csdn.net/yan234280533/article/details/72567261 Pod是Kubernetes中最基本的部署调度单元,可以包含contain ...

随机推荐

  1. 接口自动化测试框架 -- reudom

    reudom Automated testing framework based on requests and unittest interface. 基于 Unittest 和 Requests ...

  2. MySQL之分库分表(MyCAT实现)

    分库分表介绍 随着微服务这种架构的兴起,我们应用从一个完整的大的应用,切分为很多可以独立提供服务的小应用.每个应用都有独立的数据库. 数据的切分分为两种: 垂直切分:按照业务模块进行切分,将不同模块的 ...

  3. python3 三行代码基于HTTP2完美实现APNS推送【详解】

    第一次做苹果APNS(Apple Push Notification service)推送,关于APNS推送原理以及证书的获取方式网上已经有许多资料,在此不做过多赘述,需要注意的是证书分为测试证书和正 ...

  4. TensorFlow——tensorflow编程基础

    0.tensorflow中的模型运行基础 tensorflow的运行机制属于定义和运行相分离,在操作层面可以抽象成两种:模型构建和模型运行. 在模型构建中的常见概念: 张量(tensor):数据,即某 ...

  5. Serverless 微服务实践-移动应用包分发服务

    背景 阿里云函数计算是事件驱动的全托管计算服务.通过函数计算,您无需管理服务器等基础设施,只需编写代码并上传.函数计算会为您准备好计算资源,以弹性.可靠的方式运行您的代码,并提供日志查询.性能监控.报 ...

  6. Spring Boot2 系列教程 (十一) | 整合数据缓存 Cache

    如题,今天介绍 SpringBoot 的数据缓存.做过开发的都知道程序的瓶颈在于数据库,我们也知道内存的速度是大大快于硬盘的,当需要重复获取相同数据时,一次又一次的请求数据库或者远程服务,导致大量时间 ...

  7. React16源码解读:开篇带你搞懂几个面试考点

    引言 如今,主流的前端框架React,Vue和Angular在前端领域已成三足鼎立之势,基于前端技术栈的发展现状,大大小小的公司或多或少也会使用其中某一项或者多项技术栈,那么掌握并熟练使用其中至少一种 ...

  8. Spring Boot 入门(十二):报表导出,对比poi、jxl和esayExcel的效率

    本片博客是紧接着Spring Boot 入门(十一):集成 WebSocket, 实时显示系统日志写的 关于poi.jxl和esayExcel的介绍自行百度. jxl最多支持03版excel,所以单个 ...

  9. Java入门 - 高级教程 - 05.网络编程

    原文地址:http://www.work100.net/training/java-networking.html 更多教程:光束云 - 免费课程 网络编程 序号 文内章节 视频 1 概述 2 Soc ...

  10. colab上基于tensorflow2.0的BERT中文多分类

    bert模型在tensorflow1.x版本时,也是先发布的命令行版本,随后又发布了bert-tensorflow包,本质上就是把相关bert实现封装起来了. tensorflow2.0刚刚在2019 ...