一、系统环境

操作系统: Centos 6.4 64bit
zabbix-agent 版本: Zabbix agent v2.2.7 (revision 50148) (24 October 2014)

二、出现的问题

zabbix-agent机器上,发现TIME_WAIT过多

三、为什么会出现这么多TIME_WAIT

下表说明了zabbix是如何通信的, 它会教给你基本的tcp协议的知识。如果你看不懂这个表的内容,我建议你可以读下<TCP/IP 详解1>!
表格中的state是TCP连接在agent和server不同阶段时的状态。我们假设每个阶段,agent和server都会得到正确的状态!
如果你用tcpdump捕获通信数据,你可以转储到文件,下载桌面,然后通过Wireshark 来查看!

passive agent通信的过程如下:

Number Connection state agent Connection state server Direction TCP flags Purpose of TCP segment
1 LISTEN SYN_SENT Agent<-Server SYN 初始化TCP连接,第一次tcp握手
2 SYN_RECVD SYN_SENT Agent->Server SYN, ACK 接受连接
3 SYN_RECVD ESTABLISHED Agent<-Server ACK 连接已经建立
4 ESTABLISHED ESTABLISHED Agent<-Server PSH, ACK zabbix server发送item key 给agent
5 ESTABLISHED ESTABLISHED Agent->Server ACK Agent 确认收到
6 ESTABLISHED ESTABLISHED Agent->Server PSH, ACK agent发送对应item key的数据
7 FIN_WAIT_1 ESTABLISHED Agent->Server FIN, PSH, ACK 当没有其它数据要发送的时候, agent 关闭连接
8 FIN_WAIT_1 CLOSE_WAIT Agent<-Server ACK  
9 FIN_WAIT_2 LAST_ACK Agent<-Server FIN, ACK  
10 TIME_WAIT LAST_ACK Agent->Server ACK 连接已经完全关闭
11 CLOSED CLOSED - - 最终,两边的状态都为CLOSED
  • 1: tcp连接是通过socket通信的,每个socket都是为唯一的,address:port--address:port
  • 2: 第二行的SYN/ACK如果没有发送,那么第一步的SYN会重新发送。在缺省的timeout设置中,如果丢了这个SYN/ACK过程,连接将会被重置(RST),并且这个获取数据的过程将会失败!
  • 3: 当前的连接是全双工的工作模式
  • 4: PUSH标志表明当前正在传送数据!
  • 7: 没有其它事要做,关闭连接。在接下来的关闭过程中,agent会保留TIME_WAIT状态!请去看下TCP连接的3次握手,和TCP关闭的4次挥手过程。 这里并不是正确的连接关闭过程。
  • 8: 带有FIN标志的数据报会被立刻确认,然后zabbix server 立刻知道这个连接已经关闭。
  • 9: zabbix server确认连接关闭的时候,它也会立刻发送一个带FIN的数据包
  • 10: 立刻确认第九步的FIN,到此为止,这个连接就关闭了!
  • 11:passive zabbix agent的连接过程,并没有第十一步的数据报!当第十步中,server端确认连接关闭,并转变状态为closed之后, agent会把TIME_WAIT挂起两分钟。 这意味着这个连接在两分钟内是不可重用的。

注意:
使用TCP协议,是为了在不可靠的网络环境中创建可靠的连接!
zabbix并不支持UDP和长连接的方式(persistent connection)

四、解决方式

设置TIME_WAIT的重用

linux服务器,配置内核参数中的 net.ipv4.tcp_tw_recycle

/etc/sysctl.conf 添加下面的3行,然后执行sysctl -p
[root@ns_xxx.xx..161.182 ~]$ tail -4 /etc/sysctl.conf
# tcp连接保持时间为1800秒
net.ipv4.tcp_keepalive_time = 1800
# 回收TIME_WAIT占用的连接
net.ipv4.tcp_tw_recycle = 1
[root@ns_xxx.xx..161.182 ~]$ sysctl -p
net.ipv4.ip_forward = 0
net.ipv4.conf.default.rp_filter = 1
net.ipv4.conf.default.accept_source_route = 0
kernel.sysrq = 0
kernel.core_uses_pid = 1
net.ipv4.tcp_syncookies = 1
kernel.msgmnb = 65536
kernel.msgmax = 65536
kernel.shmmax = 17179869184
kernel.shmall = 4194304
kernel.shmmni = 4096
fs.file-max = 655350
kernel.sem = 250 32000 128 1024
net.ipv4.tcp_keepalive_time = 1800
net.ipv4.tcp_tw_recycle = 1
[root@ns_xxx.xx..161.182 ~]$ netstat -an |grep -i time|grep 10050|grep -v 5432|wc -l
0
# 现在TIME_WAIT为0个,原先有89个

注意:
关于tcp_tw_recycle:
如果是tcp_tw_recycle被打开了话,会假设对端开启了tcp_timestamps,然后会去比较时间戳,如果时间戳变大了,就可以重用。但是,如果对端是一个NAT网络的话(如:一个公司只用一个IP出公网)或是对端的IP被另一台重用了,这个事就复杂了。建链接的SYN可能就被直接丢掉了(你可能会看到connection
time out的错误

zabbix-agent TIME_WAIT 过多(转)的更多相关文章

  1. zabbix-agent TIME_WAIT 过多

    一.系统环境 操作系统: Centos 6.4 64bit zabbix-agent 版本: Zabbix agent v2.2.7 (revision 50148) (24 October 2014 ...

  2. Zabbix Agent active主动模式监控

    zabbix_server端当主机数量过多的时候,由Server端去收集数据,Zabbix会出现严重的性能问题,主要表现如下: 1.当被监控端到达一个量级的时候,Web操作很卡,容易出现502 2.图 ...

  3. Zabbix Agent active批量调整客户端为主动模式监控

    Zabbix Agent active批量调整客户端为主动模式监控 zabbix_server端当主机数量过多的时候,由Server端去收集数据,Zabbix会出现严重的性能问题,主要表现如下: 1. ...

  4. zabbix agent主动模式与proxy模式,实现公网zabbix监控私网客户机

    zabbix agent主动模式,实现公网zabbix监控私网客户机 zabbix_server端当主机数量过多的时候,由Server端去收集数据,Zabbix会出现严重的性能问题,主要表现如下:  ...

  5. zabbix agent被动模式配置

    zabbix agent检测分为主动(agent active)和被动(agent)两种形式,主动与被动的说法均是相对于agent来讨论的.简单说明一下主动与被动的区别如下: 主动:agent请求se ...

  6. 解决Zabbix某台主机突然频繁告警"Zabbix agent on xxxxxx is unreachable for x minutes"

    一.某台主机突然某一天频繁告警zabbix agent不可达 查看zabbix agent日志没有发现异常 二.查看zabbix server日志发现这台主机的日志有大量报错信息"first ...

  7. Linux平台Zabbix Agent的安装配置

    这里简单总结一下Linux平台Zabbix Agent的安装配置,实验测试的Zabbix版本比较老了(Zabbix 3.0.9),不过版本虽然有点老旧,但是新旧版本的安装步骤.流程基本差别不大.这里的 ...

  8. zabbix agent安装与配置篇

     Zabbix监控windows部署安装 Zabbix agent 在windows上安装部署 (1)手工安装zabbix agent客户端 1.  下载与解压 地址: http://www.zabb ...

  9. Nginx做前端Proxy时TIME_WAIT过多的问题

    我们的DSP系统目前基本非凌晨时段的QPS都在10W以上,我们使用Golang来处理这些HTTP请求,Web服务器的前端用Nginx来做负载均衡,通过Nginx的proxy_pass来与Golang交 ...

随机推荐

  1. ValidationAttribute特性的截图

  2. 启动Ubuntu的时候出现黑屏的情况

    在启动Ubuntu的时候出现黑屏的情况,是因为升级了内核导致显卡不兼容,启动的时候应该告诉内核不要加载显卡: 在进入系统选择时按e进入编辑 在quiet splash 后面添加 nomodeset 再 ...

  3. 代码写不对队-Beta冲刺版本

    代码写不对队:Beta冲刺版本 这个作业属于哪个课程 http://edu.cnblogs.com/campus/xnsy/GeographicInformationScience/homework ...

  4. Rainbow Plan团队项目第一次作业——项目计划

    团队项目--Rainbow Plan英语学习App 1.团队简介 1.1团队名称:Rainbow Plan (彩虹计划) 1.2团队成员: 队员学号 队员姓名 201731024235 何继武(组长) ...

  5. linux系统iot平台编程阶段总结

    1.inline内联函数 在C语言中,如果一些函数被频繁调用,不断地有函数入栈,即函数栈,会造成栈空间或栈内存的大量消耗. 为了解决这个问题,特别的引入了inline修饰符,表示为内联函数. 在使用循 ...

  6. Vmware14 开机黑屏或者以独占方式锁定此配置文件失败等问题解决办法

    把VMware14版本卸载掉,然后重装一个12版本的 打开之前创建的虚拟机,提示版本不兼容, 打开配置文件: 修改版本为重装的版本,比如12 然后编辑虚拟机设置指定一个系统,比如centos,即可 就 ...

  7. idea maven 动态打包指定环境

    jar pom.xml <!-- 指定文件id --> <profiles> <profile> <id>alpha</id> <pr ...

  8. CUDA学习(四)之使用全局内存进行归约求和(一个包含N个线程的线程块)

    问题:使用CUDA进行数组元素归约求和,归约求和的思想是每次循环取半. 详细过程如下: 假设有一个包含8个元素的数组,索引下标从0到7,现通过3次循环相加得到这8个元素的和,使用一个间隔变量,该间隔变 ...

  9. Message: 'chromedriver' executable needs to be available in the path.

    环境:windows10 python:3.7.3 已经把 executable.exe 添加到了环境变量中,但还是会提示以上错误. 解决办法: from selenium import webdri ...

  10. 如何在OpenStack中对云主机类型进行重新配置

    目标:很多用户在OpenStack启动一个虚拟机,选择了一个云主机配置类型,例如2CPU 4GB内存,使用了一段时间,感觉这个配置并不能满足需求,所以希望能够提高配置,那么OpeNStack的管理界面 ...