记一次bond引起的网络故障】的更多相关文章

本案中3个关键服务器 物理服务器:192.168.6.63,简称P,(Physical server) KVM-VM:192.168.6.150,是物理服务器P上的一个KVM虚机,简称VM NAS:外部NAS服务器,用来做ping/arp测试服务器,简称NAS 物理服务器P的配置: #uname -a Linux cz63 4.15.18-11-pve #1 SMP PVE 4.15.18-34 (Mon, 25 Feb 2019 14:51:06 +0100) x86_64 GNU/Linux…
一.故障现象 我们团队访问腾讯云上部署的测试环境中的Web系统A时,偶尔会出现类似于网络闪断的情况,浏览器卡很久没有反应,最终报Connection Timeout. 不过奇怪的是,当团队中的某个人无法访问A时,其他人仍然可以正常访问.而且无法访问的这个人如果利用VPN,找一台其他地方的主机为跳板,也可正常访问A. 而且该故障发生几率较低,持续时间也较短,一般稍等片刻即可自行恢复.所以,很长一段时间以来,该故障均没有引起重视,只是被我们简单的认为可能是运营商网络质量问题. 直到最近发生几率越来越…
网络故障 1.环路故障 概念 1).以太网是一个支持广播的网络, 在没有环路的环境中,广播报文在网络中以泛洪的形式被送达到网络的第一个角落,以保证每个设备都能够接受到它.每台二层设备在接收到广播报文以后,都会向除接收端口以外的其他所有接口轩发这个广播报文,一旦网络中有环路,这种简单的广播机制就会引发灾难性后果. 2).以太网产生环路后可能会有如下现象产生: A.设备无法远程登录 B.在设备上使用display interface 命令查看接口统计信息时发现接口收到大量广播报文 C.使用串口登录设…
App往往都有缓存功能,例如常见的新闻类应用,如果你关闭网络,你上次打开App加载的数据还在,只是不能加载新的数据了. 我的博客bougieblog.cn,欢迎前来尬聊. 集中处理请求 如果你fetch数据的页面有多个,不集中处理的话每个页面都要单独进行缓存处理.那么,如何对http请求进行集中处理? 在WebApp中常见的做法就是将请求放在action里面,例如Vuex和Redux.但是在业务逻辑较少的App中,我们往往可能不需要Redux.这时就需要我们自己对集中请求进行封装. 封装Asyn…
网络故障可以说是分布式系统天生的宿敌.如果永远不发生网络故障,我们实际上可以设计出高可用强一致的分布式系统.可惜的是不发生网络故障的分布式环境还不存在,ZK 使用过程中也需要小心的应付网络故障. 让我们先忘掉故障发生的情况,首先来看到 ZK 对网络连接的处理.ZK 客户端启动时带有所有可用的服务器的信息,它会随机选择和其中一台服务器尝试连接,在正常的成功连接的情况下,ZK 客户端和服务端会建立起一个会话(session),在会话超时之前服务端会响应客户端的请求,每次新的请求都会刷新会话超时的时间…
Linux多网卡绑定(bond)及网络组(team)   很多时候,由于生产环境业务的特殊需求,我们需要对服务器的物理网卡实施特殊的配置,从而来满足不同业务场景下对服务器网络的特殊性要求.如高并发的网络IO型业务,需要高速的网络IO,即对网卡的收收发包处理能力及网卡最大带宽速度等性能指标提出了更高的要求:事务处理型的系统,如金融交易系统.电商平台等,对物理网络线路.网卡等物理设备的稳定可靠性提出了更高的要求.   Linux系统中,可以通过多网卡绑定(bonding)和网络组(team)等技术,…
网络不通 先ping自己 在ping网关 再ping外网 再ping别人的ip 背景需求 Linux 因为其强大的网络处理能力,被广泛用于网关(实例链接)和服务器(实例链接).实际工作中,快速排查这些 Linux 设备的网络故障成为解决问题的利器.为此,本文列出高频使用的 Linux 排查网络故障的命令. 诊断系统资源 CPU: uptime, top, sar -u RAM: free, top, sar -r Disk: iostat, sar -b, df -h, du -S /home…
作者 | 骆冰利 来源 | Erda 公众号 ​ 某天晚上,客户碰到了这样的问题:K8s 集群一直扩容失败,所有节点都无法正常加入集群.在经过多番折腾无解后,客户将问题反馈到我们这里,希望得到技术支持.该问题的整个排查过程比较有意思,本文对其中的排查思路及所用的方法进行了归纳整理并分享给大家,希望能够对大家在排查此类问题时有些帮助和参考. ​ 问题现象 运维同学在对客户的 K8s 集群进行节点扩容时,发现新增的节点一直添加失败.初步排查结果如下: ​ 在新增节点上,访问 K8s master s…
首先这次网络故障是断电引起的 我给大家画个模型 三层的为八口交换机 一层的为五口打印机 笔记本代表两台无线打印机 首先八口的连接了公司采购电脑一台,业务电脑一台,其他电脑三台 第二个五口交换的连接财务电脑两台 最后一个五口交换机连接两台无线打印机,其他电脑一台 红圈电脑 青色打印机 紫色交换机 大八口 小五口 路由器最后一个颜色,自己找 1我首先用笔记本一个一个口试试,看看哪里联网,最后我确定是交换机出了问题,想一把换掉,换这两个,本人也是一个萌新,没处理过,也有猜测的意思 2本来可能直接换交换…
背景: 之前做了一个项目,需要在容器内访问宿主机提供的Redis 服务(这是一个比较常见的应用场景哈), 常规方案: ①   主机网络(docker run --network=host): 完全应用主机网络堆栈,在容器内localhost就是指向宿主机 ②   网桥网络(docker run --network=bridge):  这也是docker容器默认的网络通信模式,容器内localhost 指向的是容器自身,不能使用 localhost 访问宿主机上localhost:6379承载的R…
一.背景 集群是二进制部署 部署完成后一起正常,各种资源对象均可正常创建. 部署应用后发现无法跨节点通信,且pod的ip都是172.17.0.0段的 二.排查过程层 查看节点路由,发现docker0网卡居然是172.17.0.0段(what?) 查找如下资料:基于docker的CNM部署flanel时,需要将/run/flannel/subnet.env作为docker的环境变量,且启动时指定flannel的网段信息 三.解决方案(修改配置文件:/usr/lib/systemd/system/d…
文章转载自:https://blog.51cto.com/dngood/988968…
1.第一步是要确认网卡本身是否工作正常?利用ping工具可以确认这点.输入ping 127.0.0.1 ,然后看是否正常ping 通? 这里的127.0.0.1 被称作主机的回环接口,是TCP/IP协议栈正常工作的前提.如果ping 不通,一般可以证实本机TCP/IP协议栈有问题,自然就无法连接到网络了.不过出现这种现象的概率比较低. 2.第二步是要确认网卡是否出现了物理或驱动故障,使用ping 本机IP 地址的方式,如果能ping 通,则说明本地设备和驱动都正常. 3.第三步摇确认是否能pin…
前段时间将一台服务器A的服务迁移至了另外一台服务器B,外网IP地址也顺带迁移过来了,结果网络出现了问题. 其中内网是畅通的,但是外网IP怎么都连不上另外一台路由C(B和C是在一个交换机下的,网段也相同),导致路由下面的网络无法直接访问C,但是在别的地方可以正常访问C的外网IP. 开始以为是自己双网卡的设置有问题,倒腾了半天问题依旧ping不通. 最后想起来当时在路由器上配置了IP-MAC绑定,一看还真是.解绑原来的服务器A的MAC地址,一切OK. 应该早点想到这个问题的,浪费了这么久,还是经验不…
网络的应用已渐渐深入我们的工作和生活,它带给了我们各方面的便利.因此,这种种的便利致使很多人对网络产生依赖性.那么,当电脑不能上网时,我们如何才能准确地判断电脑问题出在哪里?又如何能快捷地解决这故障?希望下文的一些小技巧能帮到大家. 其实,电脑不能上网大致可分以下几个原因,系统的IP设置.网卡.MODEM和线路故障.排除硬件及线路的故障问题,我们可以利用Ping命令来快速检测网络状况. 首先,我们点击系统中“开始”里的“运行”,在运行栏中输入cmd命令,操作系统中的DOS窗口就会弹出(图1),在…
结论:通过BFD可以联动静态路由,从而监控整个网络上的网络情况,当出现故障时及时进行切换. 下面的例子,就是通过BFD监控上面的这个往返路由,当中间网络出现故障时,两端全部切换到下面的第二条路由进行通信. 如果不结合BFD的话,每个设备只能根据直连端口是否发生down来决定是否切换,而对于中间网络发生故障无法感知,从而导致流量不会发生切换,影响客户业务. 1.组网图: 2.组网说明: (1)R1 和 专线网关之间有两条静态路由构成等价路由(实际上路由器只会从上面的一条发送流量,不走下面的,这个是…
故障现象: 1.应用无法通过外网访问,应用服务器所在的内网网段之间(web和db数据库之间访问丢包严重)不能互相访问 其他网段正常 2.怀疑是网络设备问题,将连接该网段设备的交换机重启后故障依旧,通过查看个端口的IP报文数据 发现28号口疑似出现环路现象,接收INPUT数据大大超出发送OUTPUT数据 28号口连接的是OA服务器,OA服务器是一台放在centos6.3下的apache web服务器 怀疑连接该服务器端口或者网线有问题,更换网线和交换机接口后问题依旧 3.拔掉该机器的网线后发现内网…
现场回顾 故事发生于某个下午,采用 salt 更新某集群的 neutron.conf (log 相关配置项) 并批量重启 neutron-openvswitch-agent(以下简称 neutron-ovs-agent),不久便有人反馈云主机宕机. 立即排查发现云主机并没有宕机,只是网络不通,大部分计算节点的 ovs 流表空空如也.Nova 和 Neutron 打出 ERROR 级别的日志. $ ovs-ofctl dump-flows br-bondNXST_FLOW repy (xid=0x…
事故经过 排查 总结 事故经过 11-01 12:00 中午午饭期间,手机突然收到业务网关非200异常报警,平时也会有一些少量499或者网络抖动问题触发报警,但是很快就会恢复(目前配置的报警阈值是5%,阈值跟当时的采样窗口qps有直接关系). 报警当时非200占比已经过10%并且在持续升高,根据历史规律应该很快就会恢复,我们稍微观察了几分钟(一边吃着很香的饺子一边看着手机),但是过了几分钟故障没有恢复而且占比升高了突破50%,故障逐渐升级(故障如果不在固定时间内解决会逐渐升级,故障群每次升级都会…
今天在给一台操作系统为Oracle Linux Server release 5.7的服务器配置网络时,遇到了备份ifcfg-eth0配置文件,导致网卡无法绑定IP地址的情况.觉得是个有意思的案例,特此记录一下,以供学习参考,避免以后再犯同类错误. 在装系统的时候没有配置网络,等到装好系统后,从系统管理员那里了解了IP.子网掩码.网关信息后,才开始配置网络.在修改ifcfg-eth0网卡配置文件前,先备份一份配置文件,以免由于修改不当,导致无法还原到最初的配置.这也是事情的起因 [root@lo…
1. 首先, 你的系统要能驱动无限网卡, 要是人品好的话, 系统已经自带了你的网卡的驱动程序. 不然就要先搞定无线网卡的驱动再说. 不然后面的步骤也就没必要了. 2. 看一下你的无线网卡叫什么: iwconfig 假设这一步我们得到的网卡名是 wlan0 3. 开启你的无线网卡: sudo ip link set wlan0 up 一般无线网卡已经是up状态了, 为了防止无线网卡处于down状态, 执行一次上面的命令吧. 4. 扫描周围可用的无线网络: sudo iw dev wlan0 sca…
一.检测工具 tcpdump:dump the traffic on a network,根据使用者的定义对网络上的数据包进行截获的包分析工具. tcpdump可以将网络中传送的数据包的“头”完全截获下来提供分析.它支持针对网络层.协议.主机.网络或端口的过滤,并提供and.or.not等逻辑语句来帮助你去掉无用的信息. 如果系统没有使用yum安装: # yum -y install tcpdump 常用参数: -i 指定网卡接口eth -n 不解析IP地址为域名 -v 显示包中详细信息 -t…
朋友打电话来问为何他的PC不能连接到家里的无线网络,而手机等其他设备都可以?相互交谈之中,我问如下几个问题: 是否可以搜索到其他无线网络? 答:是.(想确实无线网卡工作是否正常) 新的手机是否可以连接上此无线网络?答:是.(想确认是否隐藏了SSID) 电脑什么年代的?无线工作在多少频率.答:很新.(想确认是否是电脑太陈旧) 查看一下无线路由器DHCP.答:DHCP工作正常,地址域很多.(我总结的,确认存在可用地址空间) 电脑曾经是否连接过此无线网络.答:没有.(想确认是否此网络被忽略,后者加入“…
Master端:192.168.2.156 ! Configuration File for keepalived global_defs { notification_email { acassen@firewall.loc failover@firewall.loc sysadmin@firewall.loc } notification_email_from Alexandre.Cassen@firewall.loc smtp_server 192.168.2.156 smtp_conne…
今天是举国欢庆的日子,但是Mariadb密码忘记了,于是巴拉巴拉的执行"mysqld_safe --skip-grant-tables &"这个神技能,打算跳过密码验证,直接登录到数据库中,更新密码:mysqld_stfe这条命令的同学应该清楚,首要条件是stop数据库,在执行mysqld_safe --skip-grant-tables &:这样才能更改登录数据库用户的密码:更新之后,发现一个很诡异的问题: [悬案疑点] 这个msyql进程是存在的,但是查看mysql…
1.记录一下自己搭建kubernetes 集群遇见的坑. 过程是我学技术以来最大的bug,处处都是坑,稍微写成一点, 就完全起不来, 起不来之后, 还找不到故障点, 郁闷之极. 后续会慢慢分享给大家. 2.kubernetes部署 Flannel网络 1)写入分配的子网段到etcd,供flanneld使用 # etcdctl -endpoint="http://192.168.1.195:2379" set /coreos.com/network/config  '{ "Ne…
1.先排查网络配置信息 IP地址->子网掩码->网关->DNS 2.查看到达的网关是否连通 ping IP地址. 3.查看DNS解析是否正常.…
一.文件系统 fs模块可与文件系统进行交互,封装了常规的POSIX函数.POSIX(Portable Operating System Interface,可移植操作系统接口)是UNIX系统的一个设计标准.fs模块提供了多个操作目录和文件的方法,大多会有同步和异步两种版本,同步的方法名称会以Sync为后缀. 1)目录处理 fs模块的readdir()方法可异步的读取目录内容,回调函数包含两个参数,第一个是错误对象,第二个是一个包含文件名称的数组,对应的同步方法是readdirSync().在下面…
一.图像 1)响应式图像 浏览器根据屏幕大小.设备像素比.横竖屏自动加载合适的图像. 响应式的功能可以通过srcset和sizes两个新属性实现. 前者可指定选择的图像以及其大小,后者会定义一组媒体条件并声明填充的宽度. 在下面的示例中(在线查看效果),浏览器会先查看设备宽度,然后检查sizes列表中哪个媒体条件第一个为真,再查看该媒体查询的填充宽度,最后从加载的srcset列表中引用宽度最接近的图像. <img srcset="elva-fairy-320w.jpg 320w, elva…
用IPCONFIG命令看到的情况是这样: Windows IP 配置 以太网适配器 本地连接 : 连接特定的 DNS 后缀 . . . . . . . : 本地链接 IPv6 地址. . . . . . . . : fe80::dd8e:65db:5e7b:efe4%12 IPv4 地址 . . . . . . . . . . . . : 192.168.0.4 子网掩码 . . . . . . . . . . . . : 255.255.255.0 默认网关. . . . . . . . .…