Keepalive VIP 故障
前端环境如下:
Nginx + Keepalived ( MASTER ) --> node *
|
|
Cisco ASA --> VIP 1.18
|
|
Nginx + Keepalived ( BACKUP )
问题描述:
客户端访问域名指向 Cisco ASA 外网端口,通过 NAT 地址转换到内网的 VIP 1.18,到达 Nginx 负载均衡器,之后将请求转向节点服务器。
故障时,客户端打开页面直接返回失败。
解决方法:
1、通过 Zabbix 监控发现 Cisco ASA 的外网接口流量正常。说明域名指向没有问题,请求已经到达防火墙。
2、登录防火墙查看地址映射表,发现地址映射正常。ping 1.18 也没有问题。
3、登录 Nginx 分发器,查看 VIP 处于绑定状态、Keepalived 处于 MASTER 状态、Nginx 服务处于运行状态。curl -I VIP 返回 200。
4、登录 Nginx BACKUP,发现处于 BACKUP 状态,也没有绑定 VIP。
5、实在没办法了,重启 Keepalived 之后发现服务正常。客户端访问无异常、故障恢复。
6、过了大概 5 小时左右,故障重现、一切如故。依然重启解决。( 03:20 )
7、又过了大概 5 小时左右,故障重现、一切如故。依然重启解决。( 08:20 )
8、经过各种查日志、设想、推理、google 后依然没有头绪,开始启用临时方案。
# 检测负载均衡器访问日志,如果前一分钟访问总数少于 500 条,则自动重启 Keepalived 记入 log、发邮件通知运维工程师。
#!/bin/bash
# Check Nginx access.log, Per minute is less than restart Keepalived
# Wang // dtime=`date -d '1 minute ago' +%Y:%H:%M` num=`grep $dtime /data/logs/nginx/access.log | wc -l` email=('xxxxxxx@qq.com' 'xxxxxxx@139.com' 'xxxxxxxx@qq.com') send_mail() {
for addr in ${email[@]};do
echo "$body" | /bin/mail -s "$subject" -r NGMA $addr
done
} if [ $num -lt ];then
body='Nginx access per minute is less than 500.'
echo `date +%F` $dtime $num >> re.log
/etc/init.d/keepalived restart
if [ $? -eq ];then
subject='S-Keepalived Restart'
send_mail $body $subject
else
subject='F-Keepalived Restart'
send_mail $body $subject
fi
fi # End
9、换换脑子继续排查故障。
shlle > ansible all-host -m shell -a 'ip addr | grep 10.10.1.18',发现问题了,除了 Nginx MASTER 绑定了 VIP 后,还有三台机器也绑定了 VIP。
# 绑定 VIP 有三种情况:1、手动采用命令绑定 2、当作 LVS 节点服务器时,执行脚本绑定 3、当作 Keepalived MASTER 是程序绑定
# 目前这三台机器都不属于这三种情况,异常!
shell > ip -f inet addr delete 10.10.1.18/ dev lo # 从 lo 口删除 VIP 1.18 shell > ip -o -f inet addr show # 再次查看,发现 VIP 已经删除 shell > /etc/init.d/keepalived restart # 重启发现,其余机器没有再次绑定 VIP
10、进一步确认问题。
# 再次查看这三台服务器的流量图,发现其中有一台 1.10 的机器,在故障时间段的流量有一个小突发,应该是该机接管了 1.18,但又没有 WEB 服务,导致故障。
# 危机解除,故障之日至今14天,没有再次发生该故障。
Keepalive VIP 故障的更多相关文章
- MYSQL + MHA +keepalive + VIP安装配置(二)--MHA的配置
一.总概 1.MHA介绍 MHA(Master High Availability)是自动的master故障转移和Slave提升的软件包.它是基于标准的MySQL复制(异步/半同步). MH ...
- Redis高可用架构—Keepalive+VIP
最近整理一下Redis高可用架构的文档,也准备分享出来,虽然这些架构也不是很复杂.Redis的高可用方案目前主要尝试过5种方式,其中2种方式已经在线上使用. 1)Redis Master-Slave ...
- 2Nginx+keepalive+2tomcat 故障转移
根据真实生产环境 总结. 硬件:共计2台Linux服务器 76和77 每台服务器都安装 Nginx Keepalive Tomcat80作为虚拟ip,负责对外连接. 78和79是两台mys ...
- MYSQL + MHA +keepalive + VIP安装配置(三)--keepalived安装配置
一.概述 keepalived介绍:Keepalived的作用是检测web服务器的状态,如果有一台web服务器死机,或工作出现故障,Keepalived将检测到,并将有故障的web 服务器从系统中剔除 ...
- 【转】Keepalived无法绑定VIP故障排查经历
一 故障描述 我在台湾合作方给定的两台虚拟机上部署HAProxy+Keepalived负载均衡高可用方案.在配置完Keepalived后,重新启动Keepalived,Keepalived没有绑定VI ...
- MYSQL + MHA +keepalive + VIP安装配置(一)--MYSQL安装配置
一.总概: 本文介绍了MySQL高可用性的实现方案MHA,MHA由Node和Manager组成,Node运行在每一台MySQL服务器上,不管是MySQL主服务器,还是MySQL从服务器,都要安装Nod ...
- Nginx+keepalived双机热备(主主模式)
之前已经介绍了Nginx+Keepalived双机热备的主从模式,今天在此基础上说下主主模式的配置. 由之前的配置信息可知:master机器(master-node):103.110.98.14/19 ...
- Nginx+Tomcat+Keepalived+Memcache 负载均衡动静分离技术
一.概述 Nginx 作负载均衡器的优点许多,简单概括为: ①实现了可弹性化的架构,在压力增大的时候可以临时添加Tomcat服务器添加到这个架构里面去; ②upstream具有负载均衡能力,可以自动判 ...
- Keepalived+MySQL双主
一.Keepalived+MySQL Replication的应用场景 MySQL的高可用方案有cluster,MMM,MHA等,这些高可用方案都要三台服务器以上,成本有点高,今天介绍一个低成本高可用 ...
随机推荐
- 每天一个linux命令(文件上传下载文件操作):【转载】gzip命令
减少文件大小有两个明显的好处,一是可以减少存储空间,二是通过网络传输文件时,可以减少传输的时间.gzip是在Linux系统中经常使用的一个对文件进行压缩和解压缩的命令,既方便又好用.gzip不仅可以用 ...
- java 中的锁 -- 偏向锁、轻量级锁、自旋锁、重量级锁
之前做过一个测试,详情见这篇文章<多线程 +1操作的几种实现方式,及效率对比>,当时对这个测试结果很疑惑,反复执行过多次,发现结果是一样的: 1. 单线程下synchronized效率最高 ...
- Loj 2047 伪光滑数
Loj 2047 伪光滑数 正解较复杂,但这道题其实可以通过暴力解决. 预处理出 \(128\) 内的所有质数,把 \(n\) 内的 \(prime[i]^j\) 丢进堆中,再尝试对每个数变形,除一个 ...
- Codeforces 1030D 【构造】
LINK 题目大意:给你n,m,k,让你在一个n*m的点阵里构造出一个面积为\(\frac{n*m}{k}\)的三角形 思路 首先要有一个结论是整点三角形的面积分母最多为2,然后就可以判断不存在的情况 ...
- vb编写串口调试程序
sub是子模块,可以调用但是没有返回值,function是有返回值的. public sub 可以在其它form里调用,而private sub 只能在当前form里调用. vb里的if else , ...
- php系统函数-----数组函数
- FastAdmin 前端页面传参笔记
FastAdmin 前端页面传参笔记 看到 QQ 群里的小伙伴询问如何传参,然后在社区里找到一笔记帖子 1 还要参考在线文档控制器部分2. 引用 Karson 的回复: 如果我们需要自己在控制器中透传 ...
- FastAdmin env.sample 的用法
FastAdmin env.sample 的用法 在 FastAdmin 的 1.0.0.20180513 中我提交了一个 PR,增加 env.sample 内容如下: [app] debug = f ...
- (四)、Fiddler打断点
一.打断点是Fiddler一个比较好用的功能,它可以做一些手工操作很难做的事情. 那为什么要打断点? 看下图,Fiddler打开后,Client(客户端)发送的请求会先经过Fiddler,然后Fidd ...
- new与malloc的区别,以及内存分配浅析
从函数声明上可以看出.malloc 和 new 至少有两个不同: new 返回指定类型的指针,并且可以自动计算所需要大小.比如: 1 2 3 int *p; p = new int; //返回类型 ...