zabbix-agent TIME_WAIT 过多(转)
一、系统环境
操作系统: Centos 6.4 64bit
zabbix-agent 版本: Zabbix agent v2.2.7 (revision 50148) (24 October 2014)
二、出现的问题
zabbix-agent机器上,发现TIME_WAIT过多

三、为什么会出现这么多TIME_WAIT
下表说明了zabbix是如何通信的, 它会教给你基本的tcp协议的知识。如果你看不懂这个表的内容,我建议你可以读下<TCP/IP 详解1>!
表格中的state是TCP连接在agent和server不同阶段时的状态。我们假设每个阶段,agent和server都会得到正确的状态!
如果你用tcpdump捕获通信数据,你可以转储到文件,下载桌面,然后通过Wireshark 来查看!
passive agent通信的过程如下:
| Number | Connection state agent | Connection state server | Direction | TCP flags | Purpose of TCP segment |
|---|---|---|---|---|---|
| 1 | LISTEN | SYN_SENT | Agent<-Server | SYN | 初始化TCP连接,第一次tcp握手 |
| 2 | SYN_RECVD | SYN_SENT | Agent->Server | SYN, ACK | 接受连接 |
| 3 | SYN_RECVD | ESTABLISHED | Agent<-Server | ACK | 连接已经建立 |
| 4 | ESTABLISHED | ESTABLISHED | Agent<-Server | PSH, ACK | zabbix server发送item key 给agent |
| 5 | ESTABLISHED | ESTABLISHED | Agent->Server | ACK | Agent 确认收到 |
| 6 | ESTABLISHED | ESTABLISHED | Agent->Server | PSH, ACK | agent发送对应item key的数据 |
| 7 | FIN_WAIT_1 | ESTABLISHED | Agent->Server | FIN, PSH, ACK | 当没有其它数据要发送的时候, agent 关闭连接 |
| 8 | FIN_WAIT_1 | CLOSE_WAIT | Agent<-Server | ACK | |
| 9 | FIN_WAIT_2 | LAST_ACK | Agent<-Server | FIN, ACK | |
| 10 | TIME_WAIT | LAST_ACK | Agent->Server | ACK | 连接已经完全关闭 |
| 11 | CLOSED | CLOSED | - | - | 最终,两边的状态都为CLOSED |
- 1: tcp连接是通过socket通信的,每个socket都是为唯一的,address:port--address:port
- 2: 第二行的SYN/ACK如果没有发送,那么第一步的SYN会重新发送。在缺省的timeout设置中,如果丢了这个SYN/ACK过程,连接将会被重置(RST),并且这个获取数据的过程将会失败!
- 3: 当前的连接是全双工的工作模式
- 4: PUSH标志表明当前正在传送数据!
- 7: 没有其它事要做,关闭连接。在接下来的关闭过程中,agent会保留TIME_WAIT状态!请去看下TCP连接的3次握手,和TCP关闭的4次挥手过程。 这里并不是正确的连接关闭过程。
- 8: 带有FIN标志的数据报会被立刻确认,然后zabbix server 立刻知道这个连接已经关闭。
- 9: zabbix server确认连接关闭的时候,它也会立刻发送一个带FIN的数据包
- 10: 立刻确认第九步的FIN,到此为止,这个连接就关闭了!
- 11:passive zabbix agent的连接过程,并没有第十一步的数据报!当第十步中,server端确认连接关闭,并转变状态为closed之后, agent会把TIME_WAIT挂起两分钟。 这意味着这个连接在两分钟内是不可重用的。
注意:
使用TCP协议,是为了在不可靠的网络环境中创建可靠的连接!
zabbix并不支持UDP和长连接的方式(persistent connection)
四、解决方式
设置TIME_WAIT的重用
linux服务器,配置内核参数中的 net.ipv4.tcp_tw_recycle
/etc/sysctl.conf 添加下面的3行,然后执行sysctl -p
[root@ns_xxx.xx..161.182 ~]$ tail -4 /etc/sysctl.conf
# tcp连接保持时间为1800秒
net.ipv4.tcp_keepalive_time = 1800
# 回收TIME_WAIT占用的连接
net.ipv4.tcp_tw_recycle = 1
[root@ns_xxx.xx..161.182 ~]$ sysctl -p
net.ipv4.ip_forward = 0
net.ipv4.conf.default.rp_filter = 1
net.ipv4.conf.default.accept_source_route = 0
kernel.sysrq = 0
kernel.core_uses_pid = 1
net.ipv4.tcp_syncookies = 1
kernel.msgmnb = 65536
kernel.msgmax = 65536
kernel.shmmax = 17179869184
kernel.shmall = 4194304
kernel.shmmni = 4096
fs.file-max = 655350
kernel.sem = 250 32000 128 1024
net.ipv4.tcp_keepalive_time = 1800
net.ipv4.tcp_tw_recycle = 1
[root@ns_xxx.xx..161.182 ~]$ netstat -an |grep -i time|grep 10050|grep -v 5432|wc -l
0
# 现在TIME_WAIT为0个,原先有89个
注意:
关于tcp_tw_recycle:
如果是tcp_tw_recycle被打开了话,会假设对端开启了tcp_timestamps,然后会去比较时间戳,如果时间戳变大了,就可以重用。但是,如果对端是一个NAT网络的话(如:一个公司只用一个IP出公网)或是对端的IP被另一台重用了,这个事就复杂了。建链接的SYN可能就被直接丢掉了(你可能会看到connection
time out的错误
zabbix-agent TIME_WAIT 过多(转)的更多相关文章
- zabbix-agent TIME_WAIT 过多
一.系统环境 操作系统: Centos 6.4 64bit zabbix-agent 版本: Zabbix agent v2.2.7 (revision 50148) (24 October 2014 ...
- Zabbix Agent active主动模式监控
zabbix_server端当主机数量过多的时候,由Server端去收集数据,Zabbix会出现严重的性能问题,主要表现如下: 1.当被监控端到达一个量级的时候,Web操作很卡,容易出现502 2.图 ...
- Zabbix Agent active批量调整客户端为主动模式监控
Zabbix Agent active批量调整客户端为主动模式监控 zabbix_server端当主机数量过多的时候,由Server端去收集数据,Zabbix会出现严重的性能问题,主要表现如下: 1. ...
- zabbix agent主动模式与proxy模式,实现公网zabbix监控私网客户机
zabbix agent主动模式,实现公网zabbix监控私网客户机 zabbix_server端当主机数量过多的时候,由Server端去收集数据,Zabbix会出现严重的性能问题,主要表现如下: ...
- zabbix agent被动模式配置
zabbix agent检测分为主动(agent active)和被动(agent)两种形式,主动与被动的说法均是相对于agent来讨论的.简单说明一下主动与被动的区别如下: 主动:agent请求se ...
- 解决Zabbix某台主机突然频繁告警"Zabbix agent on xxxxxx is unreachable for x minutes"
一.某台主机突然某一天频繁告警zabbix agent不可达 查看zabbix agent日志没有发现异常 二.查看zabbix server日志发现这台主机的日志有大量报错信息"first ...
- Linux平台Zabbix Agent的安装配置
这里简单总结一下Linux平台Zabbix Agent的安装配置,实验测试的Zabbix版本比较老了(Zabbix 3.0.9),不过版本虽然有点老旧,但是新旧版本的安装步骤.流程基本差别不大.这里的 ...
- zabbix agent安装与配置篇
Zabbix监控windows部署安装 Zabbix agent 在windows上安装部署 (1)手工安装zabbix agent客户端 1. 下载与解压 地址: http://www.zabb ...
- Nginx做前端Proxy时TIME_WAIT过多的问题
我们的DSP系统目前基本非凌晨时段的QPS都在10W以上,我们使用Golang来处理这些HTTP请求,Web服务器的前端用Nginx来做负载均衡,通过Nginx的proxy_pass来与Golang交 ...
随机推荐
- HTTP图解笔记(六)—— 第6章 HTTP首部
前言 为啥第一章直接跳到第六章呢,因为...博主当初看书的时候挑着看..只看了第一章和第六章┗( ▔, ▔ )┛ HTTP图解对于不熟悉HTTP的小伙伴来说是很好的书籍,建议入手! 一. HTTP报文 ...
- 图解kubernetes调度器抢占流程与算法设计
抢占调度是分布式调度中一种常见的设计,其核心目标是当不能为高优先级的任务分配资源的时候,会通过抢占低优先级的任务来进行高优先级的调度,本文主要学习k8s的抢占调度以及里面的一些有趣的算法 1. 抢占调 ...
- python 进程Queue
1.作用:进程之间的数据交互 2.常用方法 """ 对象.put() 作用:放入队列一个数据 对象.get() 作用:取队列一个数据,若队列没有值,则阻塞 对象.empt ...
- 异数OS-星星之火(二)--远程实验室注册开放
异数OS-星星之火(二) 远程实验室注册开放 异数os-织梦师云 未来操作系统技术远程实验室预计9月中旬开放,提供异数os用户学习研究测试服务,目前在做容器化多租户环境改造,先开放会员预注册通道,有需 ...
- selenium之窗口滚动
在这里和大家分享一下,selenium里面常用于处理窗口滚动的方法. location_once_scrolled_into_view 一般用于定位窗口底部元素.将窗口拉到最底部. window.sc ...
- [bzoj3143] [洛谷P3232] [HNOI2013] 游走
Description 一个无向连通图,顶点从1编号到N,边从1编号到M. 小Z在该图上进行随机游走,初始时小Z在1号顶点,每一步小Z以相等的概率随机选 择当前顶点的某条边,沿着这条边走到下一个顶点, ...
- 理想乡题解 (线段树优化dp)
题面 思路概述 首先,不难想到本题可以用动态规划来解,这里就省略是如何想到动态规划的了. 转移方程 f[i]=min(f[j]+1)(max(i-m,0)<=j<i 且j符合士兵限定) 注 ...
- CSS-15-定位
<!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title> ...
- C语言博客作业7
本周作业头 这个作业属于那个课程 C语言程序设计II 这个作业要求在哪里 作业链接 我在这个课程的目标是 熟练运用switch语句 这个作业在那个具体方面帮助我实现目标 完成pta作业 参考文献 文章 ...
- springIOC源码接口分析(一):BeanFactory
一 应用场景 BeanFactory接口定义了IOC容器的最基本功能,提供了容器应该具有的功能规范,所有的容器都应该实现这个接口 BeanFactory设计了getBean方法用来获取容器中的Bean ...