k8s故障总结】的更多相关文章

Kubernetes的故障排查一直困扰众多运维团队或DevOps,除了Kubernetes本身的复杂性之外,还有Kubernetes的工作负载是动态的原因.本文将介绍1个工具可以帮助你可视化K8S的网络和流量,以提升你的故障排查效率. 本文来自Rancher Labs 作为领先的多集群Kubernetes管理平台,Rancher使运维团队可以部署.管理和保护企业的Kubernetes集群.Rancher还为用户提供了一系列容器网络接口(CNI)选项可供选择,包括开源项目Calico(https:…
//pod Unknown状态,开始强制删除eureka-server-node-0,eureka-server-node-1等,强制删除不了 [root@fp158 sts]# kubectl delete pods eureka-server-node-0 --grace-period=0 --…
1.run pod的时候提示"Back-off pulling image \"registry.access.redhat.com/rhel7/pod-infrastructure:latest\" 处理步骤: yum install *rhsm* docker pull registry.access.redhat.com/rhel7/pod-infrastructure:latest wget http://mirror.centos.org/centos/7/os/x…
近几年容器相关的技术大行其道,容器.docker.k8s.mesos.service mesh.serverless等名词相信大家多少都有听过,国内互联网公司无一不接触和使用相关技术. 健康之路早在2016年就启动了容器化的评估.眼观现在容器化相关技术的稳定性和可行性也得到了很多的验证,在这样的前提下我们启动了容器化实践之路. 当然在实践的过程中我们也不乏遇到了一些问题,我们希望通过文字来记录和分享我们遇到的一些事情,也希望为大家的容器化之路带来帮助. 概要 目标读者 此系列文章不会涉及到很多的…
地址: 链接:https://pan.baidu.com/s/1bwEUZTCVzqM3mGjrlISbcg 提取码:r1kx 目录: 目录: │ 1-1.kubernetes理论教程 - 云原生技术的前世今生.mp4│ 1-2.kubernetes理论教程 - K8S初体验.mp4│ 1-3.kubernetes理论教程 - K8s工作负载原理剖析和实践.mp4│ 1-4.kubernetes理论教程 - K8s调度器原理剖析和实践.mp4│ 1-5.kubernetes理论教程 - K8S网…
使用k8s已有近一年的时间,版本从1.2到1.5.1.6.1.7,期间出现并解决了不少问题,下面是我总结的影响k8s集群稳定性的因素: 1. 安装环境 *kubelet版本最好与kube-apiserver.kube-controller-manager.kube-scheduler匹配: *docker版本必须符合k8s的要求(当前是1.12): *在xfs文件系统上使用docker overlay storage 请用下述命令重新格式化分区:mkfs.xfs -n ftype=1 2. 持久…
一次在k8s集群中创建实例发现etcd集群状态出现连接失败状况,导致创建实例失败.于是排查了一下原因. 问题来源 下面是etcd集群健康状态: [root@docker01 ~]# cd /opt/kubernetes/ssl/ [root@docker01 ssl]# /opt/kubernetes/bin/etcdctl \ > --ca-file=ca.pem --cert-file=server.pem --key-file=server-key.pem \ > --endpoints…
这个故障源起来在k8s上同时安装ceph群集(测试的时候机器不多啊) 当这两者都OK之后,原来k8s上的服务实例,则有的通,有的不通了. ==================== 所有可能的故障点,flannel,kubelet,kubeproxy都排查过之后, 定位在Iptable, 但net.ipv4.ip_forward = 1这种配置我是有的. ==================== 我同时输出一份正常和不正常的iptables配置. 发现了一个点: 在不通的机器上,IPTABLES将…
(图片来自网络) 非常抱歉,这次开船触礁故障给您带来麻烦了,请您谅解. 在我们昨天发布 k8s 开船记首航博文后,有园友在评论中发来贺词——“泰坦尼克号出发了[狗头]”,借此吉言,今天船就触礁了,还好不是冰山.在触礁后,我们收到了唯一一封贺电,贺电署名——“隔壁正在打酱油的 docker swarm 集群”. 触礁时间发生在今天上午 10:18~10:30 左右,当时航行用的是四涡轮发动机(4个nodes). 10:18 左右开始,3与4号发动机(k8s-n3与k8s-n4节点)被撞坏熄火,重新…
非常非常抱歉,新年上班第一天, 在今天阿里云上气候突变情况下,由于我们开船技术差,在今天 10:15~12:00 左右的访问高峰,我们竟然把船给开翻了,造成近2个小时整个博客站点无法访问,由此给您带来很大很大的麻烦,恳请您的谅解. 翻船经过如下. 翻墙前的船只情况 博客站点正在使用的 k8s 集群一共用了 9 台 worker 节点服务器,在访问低峰时用 5 台,另外 4 台处于关机状态,在进入访问高峰前启动.所以我们用 cron 定时任务在工作日每天早上启动 4 台服务器,每天晚上关闭 4 台…