最近遇到一个问题,从业务上出现ftp异常:

ftp .**.**.**
ftp: connect: Cannot assign requested address

这台服务器上的socket统计如下:

ss -s
Total: (kernel )
TCP: (estab , closed , orphaned , synrecv , timewait /), ports 12036-----这个是cat /proc/slabinfo |grep -i tcp_bind_bucket 的inuse那列 Transport Total IP IPv6
* - -
RAW
UDP
TCP
INET
FRAG

可以看到,closed的值很高,ports也很高,占用了12036个端口,

ss -s执行的源代码是:

int print_summary(void)
{
struct sockstat s;
struct snmpstat sn; if (get_sockstat(&s) < )---------------读取/proc/net/sockstat
perror("ss: get_sockstat");
if (get_snmp_int("Tcp:", "CurrEstab", &sn.tcp_estab) < )
perror("ss: get_snmpstat"); printf("Total: %d (kernel %d)\n", s.socks, slabstat.socks); printf("TCP: %d (estab %d, closed %d, orphaned %d, synrecv %d, timewait %d/%d), ports %d\n",
s.tcp_total + slabstat.tcp_syns + s.tcp_tws,
sn.tcp_estab,
s.tcp_total - (s.tcp4_hashed+s.tcp6_hashed-s.tcp_tws),
s.tcp_orphans,
slabstat.tcp_syns,
s.tcp_tws, slabstat.tcp_tws,
slabstat.tcp_ports-----------这个就是slabinfo中的tcp_bind_bucket 的activeobj
); printf("\n");
printf("Transport Total IP IPv6\n");
printf("* %-9d %-9s %-9s\n", slabstat.socks, "-", "-");
printf("RAW %-9d %-9d %-9d\n", s.raw4+s.raw6, s.raw4, s.raw6);
printf("UDP %-9d %-9d %-9d\n", s.udp4+s.udp6, s.udp4, s.udp6);
printf("TCP %-9d %-9d %-9d\n", s.tcp4_hashed+s.tcp6_hashed, s.tcp4_hashed, s.tcp6_hashed);
printf("INET %-9d %-9d %-9d\n",
s.raw4+s.udp4+s.tcp4_hashed+
s.raw6+s.udp6+s.tcp6_hashed,
s.raw4+s.udp4+s.tcp4_hashed,
s.raw6+s.udp6+s.tcp6_hashed);
printf("FRAG %-9d %-9d %-9d\n", s.frag4+s.frag6, s.frag4, s.frag6); printf("\n"); return ;
}

可以看到,ss -s 关于ipv4的输出是通过读取/proc/net/sockstat 的内容,

cat /proc/net/sockstat
sockets: used
TCP: inuse orphan tw alloc mem
UDP: inuse mem
UDPLITE: inuse
RAW: inuse
FRAG: inuse memory

和前面数据有些相差是因为不是严格一个时间点取的,同时,alloc是比较接近closed的,(注意ss中关于closed的算法,要获取精确值,应该关注 /proc/net/sockstat

中的alloc的值)

而正常的设备大概是:

cat /proc/net/sockstat
sockets: used
TCP: inuse orphan tw alloc mem
UDP: inuse mem
UDPLITE: inuse
RAW: inuse
FRAG: inuse memory

可以明显看到alloc的数量相比正常设备很高,而且不是属于inuse状态。

ss -t -a |wc -l 
63

所以这个被ss列入到close状态的大多数就是alloc状态,closed被展示为: s.tcp_total - (s.tcp4_hashed+s.tcp6_hashed-s.tcp_tws),

而s.tcp_total格式化为:

    else if (strcmp(id, "TCP:") == )
sscanf(rem, "%*s%d%*s%d%*s%d%*s%d%*s%d",
&s->tcp4_hashed,---------这个就是inuse那列
&s->tcp_orphans, &s->tcp_tws, &s->tcp_total, &s->tcp_mem);-------tcp_mem就是tcp申请的内存,内核中的tcp_memory_allocated变量

其实就是:

TCP: inuse 81 orphan 0 tw 6 alloc 41019 mem 286

中的alloc那列,tcp_total里面就是alloc的tcp socket总数,但是inuse的又远远低于alloc状态,这个是为啥?

而对应的closed这项为:

    printf("TCP:   %d (estab %d, closed %d, orphaned %d, synrecv %d, timewait %d/%d), ports %d\n",
s.tcp_total + slabstat.tcp_syns + s.tcp_tws,
sn.tcp_estab,
s.tcp_total - (s.tcp4_hashed+s.tcp6_hashed-s.tcp_tws),---------这项closed就是alloc的tcp socket加上timewait 然后减去inused
s.tcp_orphans,
slabstat.tcp_syns,
s.tcp_tws, slabstat.tcp_tws,
slabstat.tcp_ports
);

按照内核代码,alloc的数量也就是:

sockets = percpu_counter_sum_positive(&tcp_sockets_allocated);

这个值在 tcp_v4_init_sock和tcp sock的 sk_clone函数 中增加,并在销毁tcp socket的 tcp_v4_destroy_sock函数中减少,两者处于配对的关系。

写了一个测试程序,才确认,ss -s显示closed的状态的socket,其实就是socket系统调用之后,还没有使用的socket,没有建联,也没侦听,也没关闭。想起tcp的状态变迁图,确实一开始的状态是closed,走了弯路,因为一开始排查,以为是跟close-wait相关,结果使用 ss -o state close-wait 看了发现数量也不对,才知道查错了方向。

回到一开始的业务本身,Cannot assign requested address 确定是绑定端口失败,端口不够用了。

而该设备上配置的ip端口范围是:

sysctl -a |grep port_range
net.ipv4.ip_local_port_range =

也就是12000个,当ports占用之后,端口就不够了,而这些端口占用,并没有实际链接,也就是closed状态的4万多个socket中,有接近12000个端口被占用且不提供服务(业务代码bug)。

其实它想占那么多端口的,4万多个tcp的socket,有30000多bind 端口失败。所以才出现了closed 4万多,而ports为12036的状态,当然,多出来的36个,我还没来得及分析,业务进程就重启了,所以看不到具体占用的了。

最近再次遇到了这个问题:

cat /proc/net/sockstat
sockets: used
TCP: inuse orphan tw alloc mem
UDP: inuse mem
UDPLITE: inuse
RAW: inuse
FRAG: inuse memory ss -s
Total: (kernel )
TCP: (estab , closed , orphaned , synrecv , timewait /), ports Transport Total IP IPv6
* - -
RAW
UDP
TCP
INET
FRAG

为了避免后来人犯同样的错,简单记录之。

一个socket数量的问题的更多相关文章

  1. [Swift通天遁地]四、网络和线程-(13)创建一个Socket客户端

    ★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★➤微信公众号:山青咏芝(shanqingyongzhi)➤博客园地址:山青咏芝(https://www.cnblogs. ...

  2. ZeroMQ接口函数之 :zmq_bind - 绑定一个socket

    ZeroMQ 官方地址 : http://api.zeromq.org/4-0:zmq-bind zmq_bind(3) ZMQ Manual - ZMQ/3.2.5 Name zmq_bind -  ...

  3. ZeroMQ接口函数之 :zmq_connect - 由一个socket创建一个对外连接

    ZeroMQ 官方地址 :http://api.zeromq.org/4-0:zmq_connect zmq_connect(3)  ØMQ Manual - ØMQ/3.2.5 Name zmq_c ...

  4. ZeroMQ接口函数之 :zmq_disconnect - 断开一个socket的连接

    ZeroMQ 官方地址 :http://api.zeromq.org/4-0:zmq_disconnect zmq_disconnect(3) ØMQ Manual - ØMQ/3.2.5 Name ...

  5. ZeroMQ接口函数之 :zmq_msg_recv - 从一个socket中接受一个消息帧

    ZeroMQ 官方地址 :http://api.zeromq.org/4-2:zmq_msg_recv zmq_msg_recv(3) ØMQ Manual - ØMQ/3.2.5 Name zmq_ ...

  6. ZeroMQ接口函数之 :zmq_msg_send – 从一个socket发送一个消息帧

    ZeroMQ 官方地址 :http://api.zeromq.org/4-0:zmq_msg_send zmq_msg_send(3) ØMQ Manual - ØMQ/3.2.5 Name zmq_ ...

  7. ZeroMQ接口函数之 :zmq_recv – 从一个socket上接收一个消息帧

    ZeroMQ 官方地址 :http://api.zeromq.org/4-1:zmq_recv zmq_recv(3)        ØMQ Manual - ØMQ/4.1.0 Name zmq_r ...

  8. ZeroMQ接口函数之 :zmq_recvmsg – 从一个socket上接收一个消息帧

    ZeroMQ 官方地址 :http://api.zeromq.org/4-1:zmq-recvmsg zmq_recvmsg(3)         ØMQ Manual - ØMQ/4.1.0 Nam ...

  9. ZeroMQ接口函数之 :zmq_sendmsg – 从一个socket上发送一个消息帧

    ZeroMQ 官方地址 :http://api.zeromq.org/4-1:zmq-sendmsg zmq_sendmsg(3)        ØMQ Manual - ØMQ/4.1.0 Name ...

随机推荐

  1. tomcat之jsp连接mysql数据库

    一.下载并部署mysql连接类 首先下载mysql连接类,下载地址https://dev.mysql.com/downloads/connector/j 如图所示,选择第一个箭头所指的平台无关版本,然 ...

  2. 005-docker启动设置环境变量

    https://blog.csdn.net/wsbgmofo/article/details/79173920

  3. Windows Server 2008 R2 /2012 修改密码策略

    今天建了域环境,在添加新用户的时候,发现用简单的密码时域安全策略提示密码复杂度不够,于是我就想在域安全策略里面把密码复杂度降低一点. 问题:    在“管理工具 >> 本地安全策略 > ...

  4. C#遍历枚举中所有值

    public enum EnumColor { 红色=1, 黑色=2, 白色=3 } foreach (EnumColor item in Enum.GetValues(typeof(EnumColo ...

  5. Python之while循环

    1.While循环基础 2.While循环进阶 3.其他

  6. outlook 2013撤消已经发送的邮件

    使用Outlook 2013发送邮件的时候,发送后,发现邮件写错了或者其它原因需要撤消发送邮件,这里介绍一下.   工具/原料 outlook 2013 方法/步骤   需要打开已经发送的邮件   点 ...

  7. 更改/var/log/messages默认权限

    问题描述: 操作系统:redhat 6.5 因为开发人员和运维人员平时在应用出现bug时,会需要看/var/log/message日志,但是默认权限为600,因此除了root用户都无法读取,现需要把每 ...

  8. HP880G3 安装RHEL6.5

    ###关于读不到网卡驱动的问题 HP 880G3 在安装系统的时候会提示acpi错误 需要按F9  选择 lency开头走U盘安装系统  进入安装界面按tab 输入 acpi=off 这样就可以安装了 ...

  9. text_CNN笔记

    Text-CNN模型作为文本分类模型,通过验证实验以及业界的共识,在文本分类任务中,CNN模型已经能够取到比较好的结果,虽然在某些数据集上效果可能会比RNN稍差一点,但是CNN模型训练的效率更高.所以 ...

  10. centos7部署.net core2.1

    1.centos 7.0及以上服务器 2..NET SDK 安装 2.1 安装 https://www.microsoft.com/net/download/linux-package-manager ...