节点健康检测

意义

在K8S集群运行的过程中,节点常常会因为运行时组件的问题、内核死锁、资源不足等各种各样的原因不可用。Kubelet默认对节点的PIDPressure、MemoryPressure、DiskPressure等资源状态进行了监控,但是当Kubelet上报这些状态的时候,节点很可能已经长时间处于不可用状态了,并且Kubelet可能已经开始了驱逐Pod的操作。所以原生K8S对节点健康的检测机制在一些场景下是不完善的,我们需要能够在节点出现问题之前提前发现,并且需要更加细致化的指标来描述节点的健康状态并且采取相应的恢复策略,实现智能运维,节省开发和运维人员的负担。

Node-Problem-Detector

NPD(Node-Problem-Detector) 是Kubernetes社区开源的集群节点的健康检测组件。NPD提供了通过正则匹配系统日志或文件来发现节点异常的功能。用户可以通过自己的运维经验,配置可能产生异常问题日志的正则表达式,选择不同的上报方式。NPD会解析用户的配置文件,当有日志能匹配到用户配置的正则表达式时,可以通过NodeCondition、Event或Promethues Metric等方式将检测到的异常状态上报。除了日志匹配功能,NPD还给接受用户自己编写的自定义检测插件,用户可以开发自己的脚本或可执行文件集成到NPD的插件中,让NPD定期执行检测程序。

TKE中的节点健康检测

在TKE中通过扩展组件的形式集成了NPD,并且对NPD的能力做了增强,称为NodeProblemDetectorPuls(NPDPlus)扩展组件。用户可以对已有集群一键部署NPDPlus扩展组件,也可以在创建集群的时候选择在创建集群的同时部署NPDPlus。在腾讯云容器团队长期运营运维K8S集群的经验中,提取了一些可以通过特定形式发现节点异常的指标,并且把其中的一些指标集成在了NPDPlus中。例如在NPDPlus容器中检测Kubelet和Docker的systemd状态,以及检测主机的文件描述符和线程数压力等。具体指标如下所示:

TKE使用NPDPlus的目的是能够提前发现节点可能不可用状态,而不是当节点已经不健康后再上报状态。当用户在TKE集群中部署了NPDPlus后,使用命令 kubectl describe node 会发现多出了很多Node Condition,如FDPressure表示该节点上已经使用的文件描述符数量是否已经达到机器允许最大值的80%;ThreadPressure表示节点上的线程数是否已经达到机器允许的90%等等。用户可以监控这些Condition,当异常状态出现时,提前采取规避策略。

同时,K8S目前认为节点NotReady的机制依赖于kube-controller-manager的参数设定,当节点网络完全不通的情况下K8S很难在秒级别发现节点的异常,这在一些场景下(如直播、在线会议等)是不能接受的。针对这种场景,NPDPlus中继承了分布式节点健康检测功能,可以在秒级快速地检测节点网络状态,以及是否能与其他节点相互通信,同时不依赖与K8S master组件的通信。此功能的实现原理和功能会在之后的文章中详细介绍。

节点自愈

采集节点的健康状态是为了能够在业务Pod不可用之前提前发现节点异常,从而运维或开发人员可以对Docker、Kubelet或节点进行修复。在NPDPlus中,为了减轻运维人员的负担,提供了根据采集到的节点状态从而进行不同自愈动作的能力。集群管理员可以根据节点不同的状态配置相应的自愈能力,如重启Docker、重启Kubelet或重启CVM节点等。同时为了防止集群中的节点雪崩,在执行自愈动作之前做了严格的限流,防止节点大规模重启。同时为了防止集群中的节点雪崩,在执行自愈动作之前做了严格的限流。具体策略为:

  • 在同一时刻只允许集群中的一个节点进行自愈行为,并且两个自愈行为之间至少间隔1分钟
  • 当有新节点添加到集群中时,会给节点2分钟的容忍时间,防止由于节点刚刚添加到集群的不稳定性导致错误自愈
  • 当节点触发重启CVM自愈动作后还处于异常状态时,则在3小时之内此节点不再执行任何自愈动作

NPDPlus会将执行过的所有自愈动作记录在Node的Event中,方便集群管理员了解在Node上发生的事件。

使用指南

  1. 登录腾讯云容器服务控制台,点击想要创建NPDPlus的集群。

  2. 点击集群详情页左侧的组件管理,在组件管理中选中NodeProblemDetectorPlus(节点异常检测Plus)。

  3. 配置NodeProblemDetectorPlus参数,可以选择根据特定节点的状态执行不同的自愈动作。

  4. 选择确定,点击完成即可一键创建。

  5. 在集群的组建管理中查看到NPDPlus运行中说明NPDPlus运行成功:

【腾讯云原生】云说新品、云研新术、云游新活、云赏资讯,扫码关注同名公众号,及时获取更多干货!!

K8S节点异常怎么办?TKE"节点健康检查和自愈"来帮忙的更多相关文章

  1. k8s之list-watch机制、节点调度以及亲和性

    k8s之list-watch机制.节点调度以及亲和性 目录 k8s之list-watch机制.节点调度以及亲和性 一.list-watch机制 1. list-watch介绍 2. list-watc ...

  2. 云计算之路-阿里云上:3个manager节点异常造成 docker swarm 集群宕机

    今天 11:29 - 11:39 左右,docker swarm 集群 3 个 manager 节点同时出现异常,造成整个集群宕机,由此给您带来很大的麻烦,请您谅解. 受此次故障影响的站点有:博问,闪 ...

  3. K8S踩坑篇-master节点作为node节点加入集群

    前面我们二进制部署K8S集群时,三台master节点仅仅作为集群管理节点,所以master节点上中并未部署docker.kubelet.kube-proxy等服务.后来我在部署mertics-serv ...

  4. k8s集群节点更换ip 或者 k8s集群添加新节点

    1.需求情景:机房网络调整,突然要回收我k8s集群上一台node节点机器的ip,并调予新的ip到这台机器上,所以有了k8s集群节点更换ip一说:同时,k8s集群节点更换ip也相当于k8s集群添加新节点 ...

  5. 【K8S】基于单Master节点安装K8S集群

    写在前面 最近在研究K8S,今天就输出部分研究成果吧,后续也会持续更新. 集群规划 IP 主机名 节点 操作系统版本 192.168.175.101 binghe101 Master CentOS 8 ...

  6. T-Sql 递归查询(给定节点查所有父节点、所有子节点的方法)

    -- 查找所有父节点with tab as( select Type_Id,ParentId,Type_Name from Sys_ParamType_V2_0 where Type_Id=316-- ...

  7. ZooKeeper连接并创建节点以及实现分布式锁操作节点排序输出最小节点Demo

    class LockThread implements Runnable { private DistributedLock lock; public LockThread(int threadId, ...

  8. [SQL]T-Sql 递归查询(给定节点查所有父节点、所有子节点的方法)

    T-Sql 递归查询(给定节点查所有父节点.所有子节点的方法)   -- 查找所有父节点with tab as( select Type_Id,ParentId,Type_Name from Sys_ ...

  9. Elasticsearch学习之ES节点类型以及各种节点的分工

    ES各种节点的分工 1. 客户端节点 当主节点和数据节点配置都设置为false的时候,该节点只能处理路由请求,处理搜索,分发索引操作等,从本质上来说该客户节点表现为智能负载平衡器.独立的客户端节点在一 ...

随机推荐

  1. 在MyBatis中采用模糊查询变量的引用标志应当是$而不是#

    具体如下例: @Select("select count(*) from hy_stock where name like '%${keyword}%' or code like '%${k ...

  2. Tomcat7.0.99集群使用Redis共享session方案

    以前配置过给予多播的session共享方案,这回再配置一个redis共享session的. 先小小的炫耀一下: 相信大家要做Tomcat+Redis+session配置,遇到的头号麻烦就是编译的tom ...

  3. web测试——弱网测试、暂停页面执行

    1.弱网测试: 2.暂停页面执行 1.js代码:可以直接在页面上打断点 缺点:需要看懂前端的代码 2.点击暂停按钮,如下图,再次点击,可继续运行

  4. Combine 框架,从0到1 —— 4.在 Combine 中使用计时器

    本文首发于 Ficow Shen's Blog,原文地址: Combine 框架,从0到1 -- 4.在 Combine 中使用计时器. 内容概览 前言 使用计时器执行周期性的工作 将计时器转换为计时 ...

  5. adb连接手机

    1. 通过wifi, 利用adb来连接手机. 在pc的cmd中输入命令: adb connect 192.168.1.100 其中adb就是手机的ip. 如果连接成功, 就可以进入android的sh ...

  6. Node.js连接MongoDB数据库

    首先要启动MongoDB服务器 先找到你的mongoDb安装目录,我的如下:就在bin文件夹下创建一个data文件夹,data内包含两个空文件夹,如下: 接着回到bin文件夹处,按住shift键,右击 ...

  7. 什么是Lambda架构

    一.Lambda架构需求 Lambda架构背后的需求是由于MR架构的延迟问题.MR虽然实现了分布式.可扩展数据处理系统的目的,但是在处理数据时延迟比较严重.实际上如果内存和CPU足够强大,MR也可以实 ...

  8. 2017年PHP程序员未来路在何方(转)

    PHP 从诞生到现在已经有20多年历史,从Web时代兴起到移动互联网退潮,互联网领域各种编程语言和技术层出不穷, Node.js . GO . Python 不断地在挑战 PHP 的地位.这些技术的推 ...

  9. Flutter学习四之实现一个支持刷新加载的列表

    上一篇文章用Scaffold widget搭建了一个带底部导航栏的的项目架构,这篇文章就来介绍一下在flutter中怎么实现一个带下拉刷新和上拉加载更多的一个列表,这里用到了pull_to_refre ...

  10. 【Unity 插件】Lean Pool 使用

    2020-09-11 Lean Pool 是一个轻量级的游戏对象池库,它可以轻松的帮助你的游戏提高性能.当然,Lean Pool也可以工作于普通的C#类. 目录: 1.Lean Pool使用 2.Le ...