k8s线上某些特殊情况强制删除 StatefulSet 的 Pod 要考虑什么隐患?

考点之什么情况下,需要强制删除 StatefulSet 的 Pod?
考点之如果 StatefulSet 操作不当可能会引发什么很严重的后果?
考点之如果遇到Pod 长时间处于 'Terminating' 或者 'Unknown' 状态情况,有什么安全一些的处理手段吗?

囧么肥事-胡说八道

线上某些特殊情况下可能需要强制删除 StatefulSet 的 Pod?

什么情况下,需要强制删除 StatefulSet 的 Pod?

正常情况下

StatefulSet 常规场景下,不需要强制删除 StatefulSet 管理的 Pod。

StatefulSet 控制器会负责创建、 扩缩和删除 StatefulSet 管理的 Pods。

它尝试确保指定数量的从序数 0 到 N-1 的 Pod 处于活跃状态并准备就绪。

StatefulSet 遵循At Most One(最多一个)规则,确保在任何时候,集群中最多只有一个具有给定标识的 Pod。

特殊情况下

所谓特殊情况下必须进行强制删除,SS感知到当某个节点不可达时,不会引发自动删除 Pod。在无法访问的节点上运行的 Pod 在超时 后会进入'Terminating' 或者 'Unknown' 状态,另外当用户尝试体面地删除无法访问的节点上的 Pod 时 Pod 也可能会进入这些状态。

如果你发现 StatefulSet 的某些 Pod 长时间处于 'Terminating' 或者 'Unknown' 状态

无法自己完成正常的调度,为了k8s集群的稳定服务,这个时候可能需要手动干预,以强制的手段从 API 服务器中删除这些 Pod

如果StatefulSet 操作不当可能会引发什么很严重的后果?

应谨慎进行手动强制删除操作,因为它可能会违反 StatefulSet 固有的至多一个的规则

StatefulSets 用于运行分布式和集群级的应用,这些应用需要稳定的网络标识和可靠的存储

这些应用通常配置为具有固定标识固定数量的成员集合,每个Pod都是唯一的,独立的,你可以理解为每个人的身份证编号都是唯一的。

具有相同身份的多个成员(Pod)可能是灾难性的,可能导致数据丢失 (例如:票选系统中的脑裂场景)。

而强制删除,可能就会导致SS出现多个Pod使用同一张身份证。

违反了”每人一证“原则。

问题来了,为什么就会出现多个相同标识的Pod呢?

原来,不同于Pod体面终止的是,在进行强制删除过程中,API 服务器不会等待来自 kubelet 对 Pod 已终止的确认消息,它会立即从 API 服务器中释放该名字

我们知道StatefulSet 中每个Pod有固定标识,而且不随着Pod的重新调度而改变。

在进行重新调度的时候,新调度创建的Pod会继承上一个旧Pod的一切有用资源,比如PV,唯一标识,网络标识等。

强制删除,直接从API服务器移除Pod对象,这个时候,StatefulSet 控制器有机会去创建一个具有相同标识的替身 Pod,并且去继承旧Pod的资源。

尚未完全删除Pod,如果创建了替身,那么此时和替身共享一个唯一标识,违反 StatefulSet 固有的至多一个的规则

这是后果,主要的还是它的附带后果。

是什么呢?最绝的来了,尚未完全删除的 Pod 仍然可以与 StatefulSet 的成员通信,也就是说它仍然可以操作PV,可能导致PV数据流失。

如果遇到Pod 长时间处于 'Terminating' 或者 'Unknown' 状态情况,有什么安全一些的处理手段吗?

安全处理?

既然知道了问题产生的原因,有什么安全一些的处理手段吗?

如果遇到Pod 长时间处于 'Terminating' 或者 'Unknown' 状态情况,再进行强制删除之前可以先考虑以下处理方式:

第一种情况,如果确认节点已经不可用了 (比如,永久断开网络、断电等), 可以主动删除掉点节点对象,或者通过节点控制器来进行删除。

第二种情况,如果节点遇到网裂问题,请尝试解决该问题或者等待其解决。 当网裂愈合时,kubelet 将完成 Pod 的删除并从 API 服务器上释放其名字。

第三种情况,必须强制,无可选择。️当你确定必须执行强制删除 StatefulSet 类型的 Pod 时,你要确保有问题的 Pod 不会再和 StatefulSet 管理的其他 Pod 通信并且可以安全地释放其名字以便创建替代 Pod。

获取更多干货,欢迎关注微信公众号:囧么肥事

Kubernetes 推荐学习书

Kubernetes权威指南PDF

链接: https://pan.baidu.com/s/11huLHJkCeIPZqSyLEoUEmQ 提取码:sa88

k8s线上某些特殊情况强制删除 StatefulSet 的 Pod 要考虑什么隐患?的更多相关文章

  1. K8S线上集群排查,实测排查Node节点NotReady异常状态

    一,文章简述 大家好,本篇是个人的第 2 篇文章.是关于在之前项目中,k8s 线上集群中 Node 节点状态变成 NotReady 状态,导致整个 Node 节点中容器停止服务后的问题排查. 文章中所 ...

  2. RookeyFrame Bug 线上创建的DLL被删除了 模块无法删除 临时解决

    不知道什么情况 在线创建模块,DLL被删除了,但是模块的相关数据无法删除.可以按照下面的方法临时用一下. 产生这个的原因,好像是Config里面的NeedInit一直都是true,没有改为false, ...

  3. kafka线上滚动升级方案记录

    kafka升级方案 为什么进行kafka升级 一.修改unclean.leader.election.enabled默认值Kafka社区终于下定决心要把这个参数的默认值改成false,即不再允许出现u ...

  4. 运维笔记--线上服务器git环境配置

    场景描述: 我们采用git去管理代码分支,本地开发环境,线上服务器多数情况下也会使用git去管理程序代码,那么新的一台服务器,如果指定了目标路径作为代码存放路径,该如何配置git环境, 以达到跟远程服 ...

  5. (转) 线上环境部署MongoDB的官方建议

    本文主要内容来自MongoDB官方文档http://docs.mongodb.org/manual/administration/production-notes/.并结合了实际工作情况进行分享. 1 ...

  6. 使用tcpcopy导入线上流量进行功能和压力测试

    - 假设我们要上线一个两年内不会宕机的先进架构.在上线前,免不了单元测试,功能测试,还有使用ab,webbench等等进行压力测试. 但这些步骤非生产环境下正式用户的行为.或许你会想到灰度上线,但毕竟 ...

  7. 从线上日志统计接口访问量QPS

    这一阵子在面试,连续遇到好几家(大小厂都有)问我的项目线上qps的情况了,说实话,我作为一个大头兵,本来没关注过这个数据,只能含混地给个"大概.也许"的回答. 回来之后,我决定对业 ...

  8. TTL 机制排毒,线上k8s的Job已经通过API 增加了Job的TTL 时长,且成功响应,为什么系统还是清理了Job?

    TTL 机制排毒,线上k8s的Job已经通过API 增加了Job的TTL 时长,且成功响应,为什么系统还是清理了Job? 面试官:"已完成 Job 的 TTL 机制了解嘛?简单说说TTL存在 ...

  9. 线上服务器TCP被打满是啥情况

    从一个线上服务器警告谈谈backlog https://wangxiangnan.cc/?p=105 缘起 双十一如期而至,此时的我因为在处理客户的一个问题已经陷入了忙碌.突然,不断接到驻场实施发来的 ...

随机推荐

  1. ApacheCN Angular 译文集 20211114 更新

    Angular 专家级编程 零.前言 一.架构概述和在 Angular 中构建简单应用 二.将 AngularJS 应用迁移到 Angular 应用 三.使用 Angular CLI 生成具有最佳实践 ...

  2. 2019年1月9日 ES6 学习心得

    ES6为我们创建对象提供了新的语法糖,这就是Class语法.如果你对ES5中面向对象的方式比较熟悉的话,Class掌握起来也是非常迅速的,因为除了写法的不同,它并不会增加新的难以理解的知识点.我们先利 ...

  3. bom-简单动画

    <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...

  4. War包是什么??

    感谢大佬: https://blog.csdn.net/Stitch__/article/details/88091745 https://www.jianshu.com/p/3b5c45e8e5bd ...

  5. ORA-22922:nonexistent LOB value问题及listagg()函数

    1 现象及错误信息 在执行一次查询的过程,Oracle出现ORA-22922:nonexistent LOB value 的错误:根据提示,是在查询时没有找到lob对象: 2 问题分析 查看SQL,发 ...

  6. Python—经典练手题目汇总

    Python-经典练手题目汇总 # 1.有1020个西瓜,第一天卖掉总数的一半后又多卖出两个,以后每天卖剩下的一半多两# 个,问几天以后能卖完? day=0 xg=1020 for i in rang ...

  7. Postman_JavaScript

    使用语法:JavaScript 结构: 测试工具主要包括三部分 在发起请求之前运行的Pre-request,预处理数据,作用:在发送请求前编辑请求数据,比如用户名或时间戳 对响应后的数据运行的Test ...

  8. vue 定义全局函数和变量

    背景 最近我在整一个网站,介绍一些有意思的网站和实用工具的网站并且把他们收集起来,网站刚建有些不成熟希望给点意见 我用的是前端框架的vue, 但是我没有打包,直接甩到服务器上了, 不想扯了, 步骤 1 ...

  9. 在Linux中设置php变量的方法

    默认情况下已经安装好了PHP环境,并且知道安装好后的PHP文件路径,然后可以通过以下的方式设置PHP变量,快速执行PHP命令运行PHP文件. 环境:centos 第一步:vi ~/.bash_prof ...

  10. mysql对属性的增删改

    修改表 alter table 创建表db 查看表 desc与describe desc table 查看建表语句show create table t1; 修改表名 alter table t1 r ...