【故障公告】K8s CofigMap 挂载问题引发网站故障

今天凌晨我们用阿里云服务器自建的 kubernetes 集群出现突发异常情况，博客站点（blog-web）与博客 web api（blog-api）的 pod 无法正常启动（CrashLoopBackOff）。

kubectl get pods -l app=blog-web

NAME                        READY   STATUS             RESTARTS   AGE

blog-web-79d579cd94-5t8w4   0/1     CrashLoopBackOff   10         34h

blog-web-79d579cd94-gjwct   0/1     CrashLoopBackOff   10         34h

blog-web-79d579cd94-hsgfv   1/1     Running            1          32m

blog-web-79d579cd94-jj4gt   1/1     Running            0          34h

blog-web-79d579cd94-k5rmv   1/1     Running            0          34h

blog-web-79d579cd94-mc8hs   1/1     Running            1          24h

blog-web-79d579cd94-td9pp   1/1     Running            1          32m

blog-web-79d579cd94-trpsn   0/1     CrashLoopBackOff   10         34h

blog-web-79d579cd94-w9w7v   1/1     Running            1          109m

blog-web-79d579cd94-zgrq4   1/1     Running            1          109m

blog-web-79d579cd94-zm4sh   0/1     CrashLoopBackOff   10         34h

blog-web-79d579cd94-zrqln   1/1     Running            0          34h

kubectl get pods -l app=blog-api

NAME                        READY   STATUS             RESTARTS   AGE   IP

blog-api-599bdd9787-9cpn7   0/1     CrashLoopBackOff   78         33h   192.168.139.55

blog-api-599bdd9787-zfbdh   0/1     CrashLoopBackOff   76         33h   192.168.132.239

CrashLoopBackOff 的原因是读取不到 CofigMap 挂载的 volume 中的 appsettings.Production.json 文件。

blog-web 的错误日志

failed to start container "blog-web": Error response from daemon: OCI runtime create failed: container_linux.go:346: starting container process caused "process_linux.go:449: container init caused "rootfs_linux.go:58: mounting \"/var/lib/kubelet/pods/022d72c9-a85f-4c58-bc27-c8ba414c5d5a/volume-subpaths/appsettings/blog-web/0\" to rootfs \"/var/lib/docker/overlay2/f4c8e87344c54969e041f11ef73d1617970c64f05e5415c5d5456517e208a5a0/merged\" at \"/var/lib/docker/overlay2/f4c8e87344c54969e041f11ef73d1617970c64f05e5415c5d5456517e208a5a0/merged/app/appsettings.Production.json\" caused \"no such file or directory\""": unknown

blog-api 的错误日志

OCI runtime create failed: container_linux.go:346: starting container process caused "process_linux.go:449: container init caused "rootfs_linux.go:58: mounting \"/var/lib/kubelet/pods/81c1715d-7ac4-469f-afa8-980b87d604b1/volume-subpaths/appsettings/blog-api/0\" to rootfs \"/var/lib/docker/overlay2/9a5dc28604d305180bc9e026db21570b22ff685d0b4db3e3df863f3dfca0f515/merged\" at \"/var/lib/docker/overlay2/9a5dc28604d305180bc9e026db21570b22ff685d0b4db3e3df863f3dfca0f515/merged/app/appsettings.Production.json\" caused \"no such file or directory\""": unknown

我们的应用容器在启动时会从 volume 中复制 appsettings.Production.json 文件到当前应用所在的文件夹，复制失败会导致容器无法启动。

blog-web 部署的 pod replica 比较多，只有部分 pod 宕机，对博客站点的访问影响不大。而 blog-api 只部署了2个 pod replica，全部宕机，本来即使 blog-api 全部宕机也不会造成致命影响，但是。。。

但是，在博客后台（i-web）的 pod 健康检查（readinessProbe与livenessProbe）中却强依赖了 blog-api（这个地方会改进），在健康检查时会请求 blog-api 进行检查，如果请求失败，i-web 的健康检查也失败，结果 blog-api pod 全部宕机最大的受害者是博客后台， i-web 的 pod 因健康检查失败全部宕机。

NAME                     READY   STATUS             RESTARTS   AGE

i-web-7996f9679b-fk6hk   0/1     CrashLoopBackOff   98         5d10h

i-web-7996f9679b-gsz2j   0/1     CrashLoopBackOff   107        5d13h

i-web-7996f9679b-xfj5d   0/1     CrashLoopBackOff   101        5d10h

从而造成从凌晨1:49左右故障发生开始，博客后台一直502，直到7:50左右才恢复。

发现故障后，我们采取的处理方法是强制删除处于 CrashLoopBackOff 状态的 pod

kubectl delete pod $1 --force --grace-period 0

旧版 pod 删除后，新 pod 都能正常启动，于是故障恢复。

这是我们自去年2月23日将生产环境切换到 k8s 之后第一次与这个 CofigMap 挂载问题相遇，到目前我们也不知道为什么会这样？但我们知道这不是百年修得同船渡的缘分，这是我们接下来面临的一个挑战——上船容易，开船难。而且，今年我们正在进行全员登船——将所有部署环境都迁移到k8s上，这个挑战将变得更大，但我们已经下定决心，2013年上云，2021年拥抱云原生。

非常抱歉，这次故障给您带来了很大的麻烦，请您谅解！园子的高可用是我们今年重点解决的一个问题，请给我们一些时间。

【故障公告】K8s CofigMap 挂载问题引发网站故障的更多相关文章

【故障公告】数据库服务器 CPU 100% 引发网站故障
悄悄地它又突然来了 -- 数据库服务器 CPU 100% 问题,上次光临时间是 3-30 8:48,这次是 4-28 9:41. 这次我们做出了快速反应,发现后立即进行主备切换,这次一次切换成功,CP ...
[故障公告]受阿里云部分ECS服务器故障影响，目前无法上传图片与文件
抱歉!今天下午阿里云华东1可用区B的部分ECS服务器出现IO HANG问题,受此影响,我们的图片与文件上传服务器无法访问,由此给您带来麻烦,请您谅解. 16:30左右开始,我们发现图片与文件上传服务器 ...
【故障公告】博客站点再次出现故障，最终回退 .NET 5.0 恢复正常
自从博客系统升级 .NET 5.0 之后遇到的诡异故障(一.二.三.四),今天它又出现了,就在前天刚刚故障之后, 就在昨天 .NET 5.0 正式版刚刚发布之后,出现了. 今天晚上我们在 19:30 ...
【故障公告】再次遭遇SQL语句执行超时引发网站首页访问故障
非常抱歉,昨天 18:40~19:10 再次遭遇上次遇到的 SQL 语句执行超时引发的网站首页访问故障,由此您带来麻烦,请您谅解. 上次故障详见故障公告,上次排查下来以为是 SQL Server 参数 ...
【故障公告】SQL语句执行超时引发网站首页访问故障
非常抱歉,今天早上 6:37~8:15 期间,由于获取网站首页博文列表的 SQL 语句出现突发的查询超时问题,造成访问网站首页时出现 500 错误,由此给您带来麻烦,请您谅解. 故障的情况是这样的. ...
【故障公告】数据库服务器 CPU 近 100% 引发的故障
抱歉,今天上午 10:48 ~ 10:33 期间,我们所使用的数据库服务(阿里云 RDS 实例 SQL Server 2016 标准版)又出现了 CPU 近 100% 问题,由此给您带来麻烦,请您谅解 ...
【故障公告】阿里云 RDS 数据库突发 CPU 近 100% 引发全站故障
今天晚上9点我们收到阿里云的告警通知: [阿里云监控]华东1(杭州)-云数据库RDS版<cnblogsdb> [instanceId=xxx] 于21:00 发生告警, 前往诊断 CPU使 ...
【故障公告】访问高峰数据库服务器 CPU 100% 引发全站故障
今天上午11:10,我们又中"奖"了,我们使用的阿里云 RDS 实例(SQL Server 2016 标准版,16核32G)突发出现 CPU 100%,引发全站故障,直到 12:1 ...
【故障公告】阿里云 RDS SQL Server 数据库实例 CPU 100% 引发全站故障
非常抱歉,今天 8:48 开始,我们使用的阿里云 RDS SQL Server 数据库实例突然出现 CPU 100% 问题,引发全站故障,由此给您带来麻烦,请您谅解. 发现故障后立即进行主备切换,和 ...

随机推荐

SQL学习(三）复杂查询
我们本节考察的数据库如下所示: 3.1 创建出满足下述三个条件的视图(视图名称为 ViewPractice5_1).使用 product(商品)表作为参照表,假设表中包含初始状态的 8 行数据. 条件 ...
RabbitMq基本概念理解
RabbitMQ的基本概念 RabbitMQ github项目地址 RabbitMQ 2007年发布,是一个在AMQP(高级消息队列协议)基础上完成的,可复用的企业消息系统,是当前最主流的消息中间件 ...
手把手教你搭饥荒专用服务器（五）—MOD自动下载安装（Windows+Linux）
想了解更详细内容,请点击原文地址:https://wuter.cn/1985.html/ 饥荒专用服务器的mod设置总共有两种方法. 方法一在本地游戏中更新mod,然后把mod上传到服务器,但是这种 ...
通配符的匹配很全面, 但无法找到元素 'dubbo:application' 的声明解决办法
直接升级dubbo的版本到2.6.4 下面的是我的项目的pom.xml配置的依赖 <dependency> <groupId>com.alibab ...
安装git之后，桌面出现蓝色问号的解决方法
安装了git之后,桌面的图标全部变成蓝色的问号. 把隐藏的文件全部显示,也没有在桌面找到.git的文件, 解决步骤: 1.把隐藏的文件全部显示: 工具-文件夹选项-查看在"隐藏文件和文件夹& ...
WIN10系统下静态编译Qt4.8.7
qt-everywhere-opensource-src-4.8.7.tar.gz http://download.qt.io/archive/qt/4.8/4.8.7/qt-everywhere- ...
CentOS 8 安装Nginx
安装命令: dnf install nginx -y 这就安装完成了 ,对你没看错一个命令就已经把nginx安装好了,不信你通过 nginx -V 命令查看. 常用操作: 1.nginx配置文件目录 ...
springboot文件上传问题记录
最近做项目需要开发一个通过excel表格导入数据的功能,上传接口写好调试的时候遇到几个问题,记录一下. 报错1: 15:50:57.586 [[1;33mhttp-nio-8763-exec-8 [0 ...
JavaScript 函数节流和函数去抖
概念函数防抖(debounce) 当调用动作过n毫秒后,才会执行该动作,若在这n毫秒内又调用此动作则将重新计算执行时间函数节流(throttle) 预先设定一个执行周期,当调用动作的时刻大于等于执 ...
node-sass 安装失败报错的原因及解决办法(整理)
npm install 时偶尔遇到报错:没有安装python或node-sass 安装失败的问题,百度之后发现是被墙了,但根据百度的方法换了淘宝镜像和用了vpn都安装失败,最后发现原来是因为没有卸载之 ...

【故障公告】K8s CofigMap 挂载问题引发网站故障

【故障公告】K8s CofigMap 挂载问题引发网站故障的更多相关文章

随机推荐

热门专题