【kubernetes入门到精通】Kubernetes的健康监测机制以及常见ExitCode问题分析「探索篇」
kubernetes进行Killed我们服务的问题背景
无论是在微服务体系还是云原生体系的开发迭代过程中,通常都会以Kubernetes进行容器化部署,但是这也往往带来了很多意外的场景和情况。例如,虽然我们已经将JVM堆内存设置为小于Docker容器中内存及K8S的Pod的内存,但是还是会被K8s给无情的杀掉(Kill -9 / Kill -15)Killed。当发生了Killed的时候,我们该如何分析和判断呢?在此我们介绍一下K8s的Killed的Exit Code编码。
kubernetes健康检测体系之探针
K8s中的探针用来对pod中容器的状态进行检测,有3种探针,存活探针、就绪探针、启动探针。

kubernetes如何监控和管理我们的Pod的运行状态
Kubernetes中的健康检查主要使用就绪性探针(readinessProbes) 和 存活性探针(livenessProbes) 来实现,service即为负载均衡,k8s保证service后面的pod都可用,是k8s中自愈能力的主要手段,主要基于这两种探测机制,可以实现如下需求:
- 异常实例自动剔除,并重启新实例
- 多种类型探针检测,保证异常pod不接入流量
- 不停机部署,更安全的滚动升级
存活探针 — livenessProbes
kubelet使用 存活探针 来确定什么时候要重启容器。 例如,存活探针可以探测到应用死锁(应用程序在运行,但是无法继续执行后面的步骤)情况,重启这种状态下的容器有助于提高应用的可用性,即使其中存在缺陷。
就绪探针 — readinessProbes
kubelet使用就绪探针可以知道容器何时准备好接受请求流量,当一个 Pod 内的所有容器都就绪时,才能认为该 Pod 就绪。 该指针用来指示容器是否准备好为请求提供服务。如果就绪态探测失败,kubelet将该Pod提供的所有服务的endpoint列表中删除该Pod的 IP地址。
与存活探针的区别
当容器未通过检查准备,则不会被终止或重新启动。存活探针通过杀死异常的容器并用新的容器去替代他们的工作,而就绪探针确保只有准备好处理请求的pod才能在服务集群中。
启动探针 — startupProbes( 1.17 版本新增)
kubelet使用启动探针来了解应用容器何时启动。 如果配置了这类探针,你就可以控制容器在启动成功后再进行存活性和就绪态检查, 确保这些存活、就绪探针不会影响应用的启动。
启动探针可以用于对慢启动容器进行存活性检测,避免它们在启动运行之前就被杀掉,如:使用了启动探针,则所有其他探针都会被禁用,直到此探针成功为止。如果启动探测失败,kubelet将杀死容器,而容器依其重启策略进行重启。
探针的3种机制
每种探测机制支持三种健康检查方法,分别是命令行exec,httpGet和tcpSocket,其中exec通用性最强,适用与大部分场景,tcpSocket适用于TCP业务,httpGet适用于web业务。
- HTTP GEt:该类型的探针通过容器的IP地址、端口号及路径调用 HTTP Get请求,如果响应的状态码大于等于200且小于400,则认为容器 健康。
- TcpSocket:该类型的探针尝试与容器指定端口建立TCP连接,如果端口打开,则诊断被认为是成功的。
- Exec(自定义健康检查):该类型的探针在容器内执行任意的命令,如果命令退出时返回码为0,则认为诊断成功。
配置和设定livenessProbes探针
通过在yaml文件中pod的spec部分的containers里面添加一个字段livenessProbe来添加存活指针:
livenessProbe执行模式执行探针控制(httpGet)
apiVersion: v1
kind: Pod
metadata:
labels:
test: liveness
name: liveness-http
spec:
containers:
- name: liveness
image: registry.k8s.io/liveness
args:
- /server
livenessProbe:
httpGet:
path: /healthz
port: 8080
httpHeaders:
- name: Custom-Header
value: Awesome
initialDelaySeconds: 3
periodSeconds: 3

Exec执行模式执行探针控制(exec)
apiVersion: v1
kind: Pod
metadata:
labels:
test: liveness
name: liveness-exec
spec:
containers:
- name: liveness
image: registry.k8s.io/busybox
args:
- /bin/sh
- -c
- touch /tmp/healthy; sleep 30; rm -f /tmp/healthy; sleep 600
livenessProbe:
exec:
command:
- cat
- /tmp/healthy
initialDelaySeconds: 5
periodSeconds: 5
livenessProbe执行模式执行探针控制(tcpSocket)
apiVersion: v1
kind: Pod
metadata:
name: goproxy
labels:
app: goproxy
spec:
containers:
- name: goproxy
image: registry.k8s.io/goproxy:0.1
ports:
- containerPort: 8080
readinessProbe:
tcpSocket:
port: 8080
initialDelaySeconds: 5
periodSeconds: 10
livenessProbe:
tcpSocket:
port: 8080
initialDelaySeconds: 15
periodSeconds: 20
每次探测都将获得以下三种结果之一:
- Success(成功):表示容器通过了诊断。
- Failure(失败):表示容器未通过诊断。
- Unknown(未知):表示没有正常进行且诊断失败,因此不会采取任何行动。
容器退出状态码的区间
Exit Codes的取值范围必须在0-255之间。可以参考:https://tldp.org/LDP/abs/html/exitcodes.html,如下图所示。

- 0:表示正常退出
- 1-128:一般程序自身原因导致的异常退出状态区间在 1-128 (这只是一般约定,程序如果一定要用129-255的状态码也是可以的)
- 129-255:外界中断将程序退出的时候状态码区间在129-255,(操作系统给程序发送中断信号,比如 kill -9 是 SIGKILL)
查看 Pod 退出状态码
$ kubectl describe pods ${pod-name}
如下图所示:

Exit Code 0
退出代码0表示特定容器没有附加前台进程,该退出代码是所有其他后续退出代码的例外,这不一定意味着发生了不好的事情。如果开发人员想要在容器完成其工作后自动停止其容器,则使用此退出代码。比如:kubernetes job在执行完任务后正常退出码为 0
Exit Code 1
程序错误,或者Dockerfile中引用不存在的文件,如 entrypoint中引用了错误的包程序错误可以很简单,例如 “除以0”,也可以很复杂,比如空引用或者其他程序 crash
Exit Code 139
Exit Code 139: Indicates failure as container received SIGSEGV
表明容器收到了 SIGSEGV 信号,无效的内存引用,对应kill -11,一般是代码有问题,或者 docker 的基础镜像有问题
Exit Code 143
Exit Code 143: Indicates failure as container received SIGTERM
表明容器收到了 SIGTERM 信号,终端关闭,对应kill -15,一般对应 docker stop 命令,有时docker stop也会导致Exit Code 137,发生在与代码无法处理SIGTERM的情况下,docker进程等待十秒钟然后发出 SIGKILL 强制退出。
Exit Code 137
Exit Code 137: Indicates failure as container received SIGKILL
表明容器收到了 SIGKILL 信号,进程被杀掉,对应kill -9,引发SIGKILL的是docker kill。这可以由用户或由docker守护程序来发起,手动执行:docker kill(Manual intervention or ‘oom-killer’ [OUT-OF-MEMORY]) 被手动干预杀死进程,或者违反系统限制被杀
137 比较常见,如果 pod 中的limit 资源设置较小,会运行内存不足导致 OOMKilled,此时state 中的 ”OOMKilled” 值为true,你可以在系统的 dmesg -T 中看到 oom 日志
内存溢出问题
此状态码一般是因为 pod 中容器内存达到了它的资源限制(resources.limits),一般是内存溢出(OOM),CPU达到限制只需要不分时间片给程序就可以。因为限制资源是通过 linux 的 cgroup 实现的,所以 cgroup 会将此容器强制杀掉,类似于 kill -9,此时在 describe pod 中可以看到 Reason 是 OOMKilled
还可能是宿主机本身资源不够用了(OOM),内核会选取一些进程杀掉来释放内存,不管是 cgroup 限制杀掉进程还是因为节点机器本身资源不够导致进程死掉,都可以从系统日志中找到记录:
ubuntu 的系统日志在 /var/log/syslog,centos的系统日志在 /var/log/messages,都可以用 journalctl -k 来查看系统日志。
【kubernetes入门到精通】Kubernetes的健康监测机制以及常见ExitCode问题分析「探索篇」的更多相关文章
- Spring Boot从入门到精通(八)日志管理实现和配置信息分析
Spring Boot对日志的处理,与平时我们处理日志的方式完全一致,它为Java Util Logging.Log4J2和Logback提供了默认配置.对于每种日志都预先配置使用控制台输出和可选的文 ...
- PHP丨PHP基础知识之PHP基础入门——函数「理论篇」
前两天讲过PHP基础知识的判断条件和流程控制,今天来讲讲PHP基础知识之PHP基础入门--函数! 一.函数的声明与使用 1.函数名是标识符之一,只能有数字字母下划线,开头不能是数字. 函数名的命名,须 ...
- Serverless Kubernetes入门:对kubernetes做减法
背景 Kubernetes作为通用的容器编排系统,承载了广泛的应用和场景,包括CI/CD,数据计算,在线应用,AI等,然而由于其通用性和复杂性,管理一个kubernetes集群对于很多用户而言还是充满 ...
- Serverless Kubernetes 入门:对 Kubernetes 做减法
作者 | 贤维 阿里巴巴高级技术专家 导读:Serverless Kubernetes 是阿里云容器服务团队对未来 Kubernetes 演进方向的一种探索,通过对 Kubernetes 做减法,降 ...
- lvs+keepalive实现主从效果,以及RS健康监测和tcp,udp实现非web的负载均衡
前面文章讲到了tcp和udp负载均衡,但是没有健康监测,这几天我优化了一下上次的操作.当然,我也是用的跨网段的通讯,因为线上业务主要是海外业务,所以做了iptables流量转发 IP: lvs-mas ...
- Kubernetes入门
简介 它是一个全新的基于容器技术的分布式解决方案,基于强大的自动化机制解决传统系统架构中负载均衡和实施部署的问题,从而节省了30%开发成本,其次具有完备的集群能力, 包括服务注册.服务发现.故障的发现 ...
- kubernetes入门实践
k8s中文文档 k8s概念比较多,有什么概念的疑惑的推荐看k8s中文文档. me的环境 操作系统:centos7 docker:1.12.6 环境跟me的不一致?不要慌,基本大部分操作都是行的通的. ...
- aspnetcore.webapi实践k8s健康探测机制 - kubernetes
1.浅析k8s两种健康检查机制 Liveness k8s通过liveness来探测微服务的存活性,判断什么时候该重启容器实现自愈.比如访问 Web 服务器时显示 500 内部错误,可能是系统超载,也可 ...
- kubernetes入门(07)kubernetes的核心概念(4)
一.pod 二.Volume volume可以为容器提供持久化存储,比如 三.私有镜像 在使用私有镜像时,需要创建一个docker registry secret,并在容器中引用.创建docker r ...
- kubernetes入门(01)kubernetes是什么?
一.kubernetes是什么? Kubernetes是Google开源的一个容器编排引擎,它支持自动化部署.大规模可伸缩.应用容器化管理.在生产环境中部署一个应用程序时,通常要部署该应用的多个实例以 ...
随机推荐
- 一键生成通用高亮代码块到剪贴板,快捷粘贴兼容 TT/WX/BJ 编辑器
有些在线图文编辑器不支持直接插入代码块,但可以直接粘贴 HTML 格式的高亮代码块. 花了一点时间研究了一下各家的编辑器,规则却各不相同.有的要求代码块被包含于 <code> ... &l ...
- 洛谷P6060 [加油武汉]传染病研究
一道不错的数学题 Solution 看到约数个数就想到枚举约数,但对于每个询问都枚举显然不现实,但是我们可以将大致的方向锁定在这方面,是否可以预处理出一定的东西,然后低复杂度询问呢? 我们想到预处理出 ...
- RAID5 IO处理之条带读代码详解
除了对齐读流程中读失败通过条带重试的场景会进入到条带读,当IO覆盖范围超过一个chunk时也会进入条带读(如向chunk为4K的RAID下发起始位置为1K大小为4K的IO),接下来我们就这部分逻辑进行 ...
- day48-JDBC和连接池04
JDBC和连接池04 10.数据库连接池 10.1传统连接弊端分析 传统获取Connection问题分析 传统的 JDBC 数据库连接使用DriverManager来获取,每次向数据库建立连接的时候都 ...
- 前端开发日常——CSS动画无限轮播
近来没有什么值得写的东西,空闲的时候帮前端的同学做了些大屏上的展示模块,就放在这里写写吧,手把手"需求->设计-> 实现",受众偏新手向. 为了直观便于理解, 直接把结 ...
- springboot+redis+虚拟机 springboot连接linux虚拟机中的redis服务
文章目录 1.前提条件:确保虚拟机开启.并且连接到redis 2.新建立一个springboot项目,创建项目时勾选web选项 3.在pom中引入redis依赖 4.在application.prop ...
- 13-ORM-更新&删除
一.更改单个数据 修改单个实体的某些字段 1.查: - 通过get()得到要修改的实体对象 2.改: - 通过对象属性的=的方式修改数据 3.保存 - 通过对象.save()保存数据 二.批量 ...
- javascript异步编程之generator(生成器函数)与asnyc/await语法糖
Generator 异步方案 相比于传统回调函数的方式处理异步调用,Promise最大的优势就是可以链式调用解决回调嵌套的问题.但是这样写依然会有大量的回调函数,虽然他们之间没有嵌套,但是还是没有达到 ...
- JAVA的File对象
文件 1.File对象 java封装的一个操作文件及文件夹(目录)的对象.可以操作磁盘上的任何一个文件和文件夹. 2.创建文件 方式一:根据路径构建一个File对象new File(path) // ...
- 2022-11-06 Acwing每日一题
本系列所有题目均为Acwing课的内容,发表博客既是为了学习总结,加深自己的印象,同时也是为了以后回过头来看时,不会感叹虚度光阴罢了,因此如果出现错误,欢迎大家能够指出错误,我会认真改正的.同时也希望 ...