事故经过 排查 总结 事故经过 11-01 12:00 中午午饭期间,手机突然收到业务网关非200异常报警,平时也会有一些少量499或者网络抖动问题触发报警,但是很快就会恢复(目前配置的报警阈值是5%,阈值跟当时的采样窗口qps有直接关系). 报警当时非200占比已经过10%并且在持续升高,根据历史规律应该很快就会恢复,我们稍微观察了几分钟(一边吃着很香的饺子一边看着手机),但是过了几分钟故障没有恢复而且占比升高了突破50%,故障逐渐升级(故障如果不在固定时间内解决会逐渐升级,故障群每次升级都会…
作者 | 骆冰利 来源 | Erda 公众号 ​ 某天晚上,客户碰到了这样的问题:K8s 集群一直扩容失败,所有节点都无法正常加入集群.在经过多番折腾无解后,客户将问题反馈到我们这里,希望得到技术支持.该问题的整个排查过程比较有意思,本文对其中的排查思路及所用的方法进行了归纳整理并分享给大家,希望能够对大家在排查此类问题时有些帮助和参考. ​ 问题现象 运维同学在对客户的 K8s 集群进行节点扩容时,发现新增的节点一直添加失败.初步排查结果如下: ​ 在新增节点上,访问 K8s master s…
1.第一步是要确认网卡本身是否工作正常?利用ping工具可以确认这点.输入ping 127.0.0.1 ,然后看是否正常ping 通? 这里的127.0.0.1 被称作主机的回环接口,是TCP/IP协议栈正常工作的前提.如果ping 不通,一般可以证实本机TCP/IP协议栈有问题,自然就无法连接到网络了.不过出现这种现象的概率比较低. 2.第二步是要确认网卡是否出现了物理或驱动故障,使用ping 本机IP 地址的方式,如果能ping 通,则说明本地设备和驱动都正常. 3.第三步摇确认是否能pin…
1.先排查网络配置信息 IP地址->子网掩码->网关->DNS 2.查看到达的网关是否连通 ping IP地址. 3.查看DNS解析是否正常.…
1.ping www.baidu.com 查看高速有没有修通,如果通,但还不能上网:可能是浏览器.中毒等问题2.ping 网关(10.0.0.254),目的是排除物理链路(网线,网卡,驱动,IP设置等) 如果ping网关不通,则要查看ip设置,然后ping自身ip或者ping网内其他机器IP, 如果ping自己ip不通:检查ip设置.网卡驱动.物理链路 如果ping网内其他机器ip是通的,这说明网关不让你联网了3.ping网关通的情况下,检查DNS的设置情况是否正确 3.1.检查方法是,ping…
修改网卡配置信息: 修改主机名规范的三个步骤: 配置默认网关: DNS解析过程,用命令看:  DNS相关命令: 口述DNS解析过程: 客户端(电脑)通过浏览器输入域名,先找hosts文件及本地dns缓存,若都没有,就找localDNS服务器,若没有,localDNF服务器找根服务器(全球13台的那个根”.“服务器),根就把.com这个顶级域名的权威DNS服务器告诉localDNS服务器,localDNS服务器再去找.com对应的DNS服务器,后者就告知qq.com的权威DNS服务器的地址,loc…
事故经过 排查 总结 事故经过 [2019-12-27 18:00 周五] 业务方突然找来说调用我们程序大量提示"触发限流",但是我们没有收到任何监控报警.紧急查看了下 ServiceMesh sidecar 代理监控发现流量持续在减少,但是监控中没有任何触发限流的 http code 429 占比,如果有触发限流我们会收到报警. 后来通过排查是程序中有一个历史限流逻辑触发了,但是程序中触发限流返回的 http code 是 200,这就完全避开了 sidecar http code…
一.故障现象 我们团队访问腾讯云上部署的测试环境中的Web系统A时,偶尔会出现类似于网络闪断的情况,浏览器卡很久没有反应,最终报Connection Timeout. 不过奇怪的是,当团队中的某个人无法访问A时,其他人仍然可以正常访问.而且无法访问的这个人如果利用VPN,找一台其他地方的主机为跳板,也可正常访问A. 而且该故障发生几率较低,持续时间也较短,一般稍等片刻即可自行恢复.所以,很长一段时间以来,该故障均没有引起重视,只是被我们简单的认为可能是运营商网络质量问题. 直到最近发生几率越来越…
NFS,全名叫Network File System,中文叫网络文件系统,是Linux.UNIX系统的分布式文件系统的一个组成部分,可实现在不同网络上共享远程文件系统. NFS由Sun公司开发,目前已经成为文件服务的一种标准之一(RFC1904,RFC1813). 其最大的功能就是可以通过网络,让不同操作系统的计算机可以共享数据,所以可以把NFS看做是一个文件服务器.NFS缺点是其读写性能比本地硬盘要差一些. 一.NFS服务常见故障排查: NFS服务出现了故障,主要从以下几个方面检查原因: (1…
网络不通 先ping自己 在ping网关 再ping外网 再ping别人的ip 背景需求 Linux 因为其强大的网络处理能力,被广泛用于网关(实例链接)和服务器(实例链接).实际工作中,快速排查这些 Linux 设备的网络故障成为解决问题的利器.为此,本文列出高频使用的 Linux 排查网络故障的命令. 诊断系统资源 CPU: uptime, top, sar -u RAM: free, top, sar -r Disk: iostat, sar -b, df -h, du -S /home…