《.NET 5.0 背锅案》第6集-案发现场回顾：故障情况下 Kubernetes 的部署表现

第1集：验证 .NET 5.0 正式版 docker 镜像问题
第2集：码中的小窟窿，背后的大坑，发现重要嫌犯 EnyimMemcachedCore
第3集-剧情反转：EnyimMemcachedCore 无罪，.NET 5.0 继续背锅
第4集：一个.NET，两手准备，一个issue，加倍关注
第5集-案情突破：都是我们的错，让 .NET 5.0 背锅
第6集-案发现场回顾：故障情况下 Kubernetes 的部署表现

我们的博客系统是部署在用阿里云服务器自己搭建的 Kubernetes 集群上，故障在 k8s 部署更新 pod 的过程中就出现了，昨天发布时，我们特地观察一下，在这1集中分享一下。

在部署过程中，k8s 会进行3个阶段的 pod 更新操作：

"xxx new replicas have been updated"
"xxx replicas are pending termination"
"xxx updated replicas are available"

正常发布情况下，整个部署操作通常在5-8分钟左右完成（这与livenessProbe和readinessProbe的配置有关），下面是部署期间的控制台输出

Waiting for deployment "blog-web" rollout to finish: 4 out of 8 new replicas have been updated...

Waiting for deployment spec update to be observed...

Waiting for deployment "blog-web" rollout to finish: 4 out of 15 new replicas have been updated...

Waiting for deployment "blog-web" rollout to finish: 4 out of 15 new replicas have been updated...

Waiting for deployment "blog-web" rollout to finish: 4 out of 15 new replicas have been updated...

Waiting for deployment "blog-web" rollout to finish: 8 out of 15 new replicas have been updated...

Waiting for deployment "blog-web" rollout to finish: 8 out of 15 new replicas have been updated...

Waiting for deployment "blog-web" rollout to finish: 8 out of 15 new replicas have been updated...

...

Waiting for deployment "blog-web" rollout to finish: 4 old replicas are pending termination...

...

Waiting for deployment "blog-web" rollout to finish: 14 of 15 updated replicas are available...

deployment "blog-web" successfully rolled out

而在故障场景下，整个部署操作需要在15分钟左右才能完成，3个阶段的 pod 更新都比正常情况下慢，尤其是"old replicas are pending termination"阶段。

在部署期间通过 kubectl get pods -l app=blog-web -o wide 命令查看 pod 的状态，新部署的 pod 处于 Running 状态，说明 livenessProbe 健康检查成功，但多数 pod 没有进入 ready 状态，说明这些 pod 的 readinessProbe 健康检查失败，restarts 大于0 说明 livenessProbe 健康检查失败对 pod 进行了重启。

NAME                        READY   STATUS    RESTARTS   AGE     IP                NODE         NOMINATED NODE   READINESS GATES

blog-web-55d5677cf-2854n    0/1     Running   1          5m1s    192.168.107.213   k8s-node3    <none>           <none>

blog-web-55d5677cf-7vkqb    0/1     Running   2          6m17s   192.168.228.33    k8s-n9       <none>           <none>

blog-web-55d5677cf-8gq6n    0/1     Running   2          5m29s   192.168.102.235   k8s-n19      <none>           <none>

blog-web-55d5677cf-g8dsr    0/1     Running   2          5m54s   192.168.104.78    k8s-node11   <none>           <none>

blog-web-55d5677cf-kk9mf    0/1     Running   2          6m9s    192.168.42.3      k8s-n13      <none>           <none>

blog-web-55d5677cf-kqwzc    0/1     Pending   0          4m44s   <none>            <none>       <none>           <none>

blog-web-55d5677cf-lmbvf    0/1     Running   2          5m54s   192.168.201.123   k8s-n14      <none>           <none>

blog-web-55d5677cf-ms2tk    0/1     Pending   0          6m9s    <none>            <none>       <none>           <none>

blog-web-55d5677cf-nkjrd    1/1     Running   2          6m17s   192.168.254.129   k8s-n7       <none>           <none>

blog-web-55d5677cf-nnjdx    0/1     Pending   0          4m48s   <none>            <none>       <none>           <none>

blog-web-55d5677cf-pqgpr    0/1     Pending   0          4m33s   <none>            <none>       <none>           <none>

blog-web-55d5677cf-qrjr5    0/1     Pending   0          2m38s   <none>            <none>       <none>           <none>

blog-web-55d5677cf-t5wvq    1/1     Running   3          6m17s   192.168.10.100    k8s-n12      <none>           <none>

blog-web-55d5677cf-w52xc    1/1     Running   3          6m17s   192.168.73.35     k8s-node10   <none>           <none>

blog-web-55d5677cf-zk559    0/1     Running   1          5m21s   192.168.118.6     k8s-n4       <none>           <none>

blog-web-5b57b7fcb6-7cbdt   1/1     Running   2          18m     192.168.168.77    k8s-n6       <none>           <none>

blog-web-5b57b7fcb6-cgfr4   1/1     Running   4          19m     192.168.89.250    k8s-n8       <none>           <none>

blog-web-5b57b7fcb6-cz278   1/1     Running   3          19m     192.168.218.99    k8s-n18      <none>           <none>

blog-web-5b57b7fcb6-hvzwp   1/1     Running   3          18m     192.168.195.242   k8s-node5    <none>           <none>

blog-web-5b57b7fcb6-rhgkq   1/1     Running   1          16m     192.168.86.126    k8s-n20      <none>           <none>

在我们的 k8e deployment 配置中 livenessProbe 与 readinessProbe 检查的是同一个地址，具体配置如下

livenessProbe:

    httpGet:

    path: /

    port: 80

    httpHeaders:

    - name: X-Forwarded-Proto

        value: https

    - name: Host

        value: www.cnblogs.com

    initialDelaySeconds: 30

    periodSeconds: 3

    successThreshold: 1

    failureThreshold: 5

    timeoutSeconds: 5

readinessProbe:

    httpGet:

    path: /

    port: 80

    httpHeaders:

    - name: X-Forwarded-Proto

        value: https

    - name: Host

        value: www.cnblogs.com

    initialDelaySeconds: 40

    periodSeconds: 5

    successThreshold: 1

    failureThreshold: 5

    timeoutSeconds: 5

由于潜藏的并发问题造成 livenessProbe 与 readinessProbe 健康检查频繁失败，造成 k8s 更新 pod 的过程跌跌撞撞，在这个过程中，由于有部分旧 pod 分担负载，新 pod 出现问题会暂停更新，等正在部署的 pod 恢复正常，所以这时故障的影响局限在一定范围内，访问网站的表现是时好时坏。

这个跌跌撞撞的艰难部署过程最终会完成，而部署完成之际，就是故障全面爆发之时。部署完成后，新 pod 全面接管负载，存在并发问题的新 pod 在并发请求的重压下溃不成军，多个 pod 因 livenessProbe 健康检查失败被重启，重启后因为 readinessProbe 健康检查失败很难进入 ready 状态分担负载，仅剩的 pod 不堪重负，CrashLoopBackOff 此起彼伏，在源源不断的并发请求的冲击下，始终没有足够的 pod 应付当前的负载，故障就一直无法恢复。

《.NET 5.0 背锅案》第6集-案发现场回顾：故障情况下 Kubernetes 的部署表现的更多相关文章

《.NET 5.0 背锅案》第7集-大结局：捉拿真凶 StackExchange.Redis.Extensions 归案
第1集:验证 .NET 5.0 正式版 docker 镜像问题第2集:码中的小窟窿,背后的大坑,发现重要嫌犯 EnyimMemcachedCore 第3集-剧情反转:EnyimMemcachedCo ...
《.NET 5.0 背锅案》第2集：码中的小窟窿，背后的大坑，发现重要嫌犯 EnyimMemcachedCore
在第1集的剧情中,主角是".NET 5.0 正式版 docker 镜像",它有幸入选第1位嫌疑对象,不是因为它的嫌疑最大,而是它的验证方法最简单,只需要再进行一次发布即可.我们在周 ...
《.NET 5.0 背锅案》第5集-案情大转弯：都是我们的错，让 .NET 5.0 背锅
第1集:验证 .NET 5.0 正式版 docker 镜像问题第2集:码中的小窟窿,背后的大坑,发现重要嫌犯 EnyimMemcachedCore 第3集-剧情反转:EnyimMemcachedCo ...
《.NET 5.0 背锅案》第3集-剧情反转：EnyimMemcachedCore 无罪，.NET 5.0 继续背锅
今天晚上基于第2集中改进版的 EnyimMemcachedCore 进行了发布,发布过程中故障重现,最大的嫌犯 EnyimMemcachedCore 被证明无罪,暂时委屈 .NET 5.0 继续背锅. ...
《.NET 5.0 背锅案》第4集：一个.NET，两手准备，一个issue，加倍关注
第1集:验证 .NET 5.0 正式版 docker 镜像问题第2集:码中的小窟窿,背后的大坑,发现重要嫌犯 EnyimMemcachedCore 第3集-剧情反转:EnyimMemcachedCo ...
《.NET 5.0 背锅案》第1集：验证 .NET 5.0 正式版 docker 镜像问题
今天我们分析了博客站点的2次故障(故障一.故障二),发现一个巧合的地方,.NET 5.0 正式版的 docker 镜像是在11月10日提前发布上线的. 而在11月10日下午4点左右,由于 CI 服务器 ...
用SignalR 2.0开发客服系统[系列4:负载均衡的情况下使用SignalR]
前言交流群:195866844 目录: 用SignalR 2.0开发客服系统[系列1:实现群发通讯] 用SignalR 2.0开发客服系统[系列2:实现聊天室] 用SignalR 2.0开发客服系统 ...
【故障公告】Memcached 的“惹祸”，不知在为谁背锅
在 .NET 5.0 背锅 . Memcached 的惹祸 .缓存雪崩之后,我们没有找到问题的真正原因,我们知道没有找到根源的故障总是会再次光临的,不是在这周就是在下周,也许就在双11前后. 就在今天 ...
Memcached 的惹祸，.NET 5.0 的背锅
抱歉,拖到现在才写这篇为 .NET 5.0 洗白的博文(之前的博文),不好意思,又错了,不是洗白,是还 .NET 5.0 的清白. 抱歉,就在今天上午写这篇博客的过程中,由于一个bug被迫在访问高峰发 ...

随机推荐

python BeautifulSoup的使用方法
BeautifulSoup的使用我们学习了正则表达式的相关用法,但是一旦正则写的有问题,可能得到的就不是我们想要的结果了,而且对于一个网页来说,都有一定的特殊的结构和层级关系,而且很多标签都有id或 ...
Python 面向对象(1): 类方法基础
# 类方法 # 如果该class 没有要继承的类则一般需要继承 object 基类 class ClassMethodBase(object): # 起手初始化以示尊敬 def __init__ ...
LUMEN框架多数据库连接配置方法
LUMEN作为一款API导向很浓的框架,配置极简化,默认只支持一路DB配置然而随着业务复杂度的提高,引入多个数据库连接似乎无法避免,下面介绍一下LUMEN连接多个数据库的配置方法: 修改.env文件 ...
ansible使用file模块管理受控机的目录与文件(ansible2.9.5)
一,ansible的file模块的用途 file 模块实现对文件的基本操作. 例如: 创建文件或目录删除文件或目录修改文件权限等说明:刘宏缔的架构森林是一个专注架构的博客,地址:https:// ...
Ansible之YAML语言
playbook写yml语句,若干模块发给Ansible,变成一个一个play,多个片段组合起来变成大片. 最终还是要读取主机清单,来确定作用在哪些机器上. YAML语言 YAML是一个可读性高的用来 ...
matplotlib中文标签乱码
在python的安装目录下找到~\Lib\site-packages\matplotlib\mpl-data 将字体文件(例如黑体SimHei.ttf,一般C:\Windows\Fonts路径下就有 ...
log4cplus库的properties文件配置
使用时需要先获取一个Logger的对象,下面获取Logger对象的内容对应于配置: Logger LogConsole = Logger::getInstance(LOG4CPLUS_TEXT(&qu ...
Linux入门到放弃之四《磁盘管理》
一,磁盘管理 1.添加一个新磁盘/dev/sdb,用fdisk工具给磁盘分区,要求:一个主分区,一个扩展分区,两个逻辑分区: (1)去虚拟机设置添加一块硬盘,大小自定义 (2)重启系统命令:rebo ...
Redis---01简述目录结构与redis.conf文件
一.Redis目录结构 (当前Redis是在CentOS 7 1708 64位环境下,Redis版本为3.2.5) 进入默认的Redis安装目录/usr/local/bin,可以看见这些下图目录结构 ...
SpringBoot第四集：静态资源与首页定（2020最新最易懂）
SpringBoot第四集:静态资源与首页定(2020最新最易懂) 问题 SpringBoot构建的项目结构如下:没有webapp目录,没有WEB-INF等目录,那么如果开发web项目,项目资源放在那 ...

《.NET 5.0 背锅案》第6集-案发现场回顾：故障情况下 Kubernetes 的部署表现

《.NET 5.0 背锅案》第6集-案发现场回顾：故障情况下 Kubernetes 的部署表现的更多相关文章

随机推荐

热门专题