SLB 7层负载均衡“HUNG”问题追查

最近接到博客园的反馈，SLB 7层负载均衡的实例会不定期出现流量突跌的情况，突跌持续10s左右；同时，SLB自身监控也观察到了相同的现象；

针对该问题，我们进行了持续追查，最终定位到是nginx配置的原因；在此，分享一下分析排查过程，希望对大家使用nginx有所帮助；

问题描述

SLB 7层负载均衡（nginx）流量会出现不定期的突跌，每次突跌持续10s左右；同时，每次突跌必然发生在 12点或者 0点；
查看SLB实例流量图，发现部分实例在12点和 0点流量突增几十倍；

两个时间点吻合，初步推断是突增流量导致nginx异常，从而导致流量下跌；

分析过程

观察每台nginx流量，发现当前运行负载比较低，远远小于阈值；CPU/MEM/NET各项指标都不高；
通过抓包发现大量的 syn 包被丢弃重传；

从上述现象，怀疑是网络问题，但从协议栈/网卡/交换机多个层面排查，没有发现网络异常；

在 Nginx 的机器上 curl 服务的统计接口时也出现了请求被 hang 住的情况；- （突破点）

抓包发现即使是本机发起的请求也会出现 syn 包丢弃重传，从而基本可以确定不是网络的问题，而是我们ngnix有问题。

查看linux协议栈源码，引起 syn 包被丢弃的原因可能有以下两点：

1. Accept backlog （接收队列）满了

2. 内存分配不出来了

内核代码如下：

int tcp_v4_conn_request(struct sock *sk, struct sk_buff *skb)

...

    if (sk_acceptq_is_full(sk) && inet_csk_reqsk_queue_young(sk) > 1) {

        NET_INC_STATS_BH(sock_net(sk), LINUX_MIB_LISTENOVERFLOWS);

        goto drop;

    req = inet_reqsk_alloc(&tcp_request_sock_ops);

    if (!req)

        goto drop;

...

机器内存是够用的，只能是 accept backlog 满掉了，

但是问题在于我们是给每一个 virtual ip 配置一个单独的 server { listen vip; } 的，怎么会在 backlog 满的时候影响到其他业务的 virtual ip 呢？

我们再回到我们的 Nginx 的配置文件来:

http {

    server {

        listen 1.1.1.1:80;

        location / {

            return 200 "10.232.6.3:80";

    server {

        listen 1.1.1.2:80;

        location / {

            return 200 "10.232.6.3:80";

    server {

        listen 1.1.1.3:80;

        location / {

            return 200 "10.232.6.3:80";

...

    server {

        listen 80;

        location / {

            return 200 "0.0.0.0:80";

深入了解 Nginx 的同学看到这里或许也就了然了。

但是我们拥有非常多的 virtual ip server 在配置文件中，一开始也并没有注意到最后一条 listen 80 的配置（该配置用于 nginx健康检查和状态统计）。

原因定位：Nginx 处理 bind listen 的时候会对监听的所有 ip:port 做一次规整合并，也就是由于最后一条 listen 80 导致 Nginx 在 listen 的时候只 bind 了一个 0.0.0.0:80 端口，之后请求进入 Nginx 的时候会通过 ip 再来查找其对应的 virtual server。这也就导致了我们前面看到的结果，当有瞬时的大流量进来时引起 accept backlog 被占满，从而也影响了其他 virtual ip 的服务。

我们也可以在 Nginx 源码里看到这点：

void

ngx_http_init_connection(ngx_connection_t *c)

...

    port = c->listening->servers;

    if (port->naddrs > 1) {

/*

         * there are several addresses on this port and one of them

         * is an "*:port" wildcard so getsockname() in ngx_http_server_addr()

         * is required to determine a server address

*/

        if (ngx_connection_local_sockaddr(c, NULL, 0) != NGX_OK) {

            ngx_http_close_connection(c);

            return;

        switch (c->local_sockaddr->sa_family) {

#if (NGX_HAVE_INET6)

        case AF_INET6:

            sin6 = (struct sockaddr_in6 *) c->local_sockaddr;

            addr6 = port->addrs;

            /* the last address is "*" */

            for (i = 0; i < port->naddrs - 1; i++) {

                if (ngx_memcmp(&addr6[i].addr6, &sin6->sin6_addr, 16) == 0) {

                    break;

            hc->addr_conf = &addr6[i].conf;

            break;

#endif

        default: /* AF_INET */

            sin = (struct sockaddr_in *) c->local_sockaddr;

            addr = port->addrs;

            /* the last address is "*" */

            for (i = 0; i < port->naddrs - 1; i++) {

                if (addr[i].addr == sin->sin_addr.s_addr) {

                    break;

            hc->addr_conf = &addr[i].conf;

            break;

    } else {

        switch (c->local_sockaddr->sa_family) {

#if (NGX_HAVE_INET6)

        case AF_INET6:

            addr6 = port->addrs;

            hc->addr_conf = &addr6[0].conf;

            break;

#endif

        default: /* AF_INET */

            addr = port->addrs;

            hc->addr_conf = &addr[0].conf;

            break;

    /* the default server configuration for the address:port */

    hc->conf_ctx = hc->addr_conf->default_server->ctx;

...

这里是在建立连接结构体时去查找所属 server，可以清晰的看到针对一个 listening 会有多个 server，也就是说这些 server 公用了一个 listen socket，以及 backlog。

问题解决

原因定位了，解决可以有多种方法；

我们采取的措施是把 listen 80 这条配置加上本地内网IP listen 172.168.1.1:80，这样Nginx 会对每个 virtual ip 进行一次 bind 和 listen，从而做到了实例间的隔离，各个 virtual ip 之间不会互相影响；

也就不再出现当有一个 virtual ip 瞬时流量过大时导致整个服务看起来像是 hung 住的问题。

SLB 7层负载均衡“HUNG”问题追查的更多相关文章

Azure上七层负载均衡APP Gateway
Azure的SLB和ILB是最常用的4层负载均衡工具.但有些场景是7层的负载均衡,SLB和ILB就无能为力了. Azure上已经推出了APP Gateway的服务,就是7层负载均衡的负载均衡器. 如上 ...
当Kubernets遇上阿里云 -之七层负载均衡(一).
我们知道Kubernetes的service只能实现基于4层的负载均衡,无法提供7层之上的许多特性,诸如基于URL的负载均衡,SSL支持,三方授权等等:Ingress可以实现七层负载均衡的许多功能,唯 ...
nginx 七层负载均衡
[tcp] nginx 七层负载均衡 nginx负载均衡概述当我们的Web服务器直接面向用户,往往要承载大量并发请求,单台服务器难以负荷,我使用多台Web服务器组成集群,前端使用Nginx负载均衡, ...
13、Nginx七层负载均衡
1.Nginx负载均衡基本概述 1.1为什么需要使用负载均衡当我们的Web服务器直接面向用户,往往要承载大量并发请求,单台服务器难以负荷,我使用多台WEB服务器组成集群,前端使用Nginx负载均衡, ...
Linux架构之Nginx 七层负载均衡
第50章 Nginx七层负载均衡一.Nginx负载均衡基本概述 1)为什么要使用负载均衡当我们的Web服务器直接面向用户,往往要承载大量并发请求,单台服务器难以负荷.使用多台Web服务器组成集群, ...
第十五章 nginx七层负载均衡
一.Nginx负载均衡 1.为什么做负载均衡当我们的Web服务器直接面向用户,往往要承载大量并发请求,单台服务器难以负荷,我使用多台Web服务器组成集群,前端使用Nginx负载均衡,将请求分散的打到 ...
阿里云slb和ucloud负载均衡ulb添加ssl证书将http服务https化的配置详解
阿里云和ucloud服务器配置ssl证书将http服务https化的配置详解项目背景: 苹果App于2017年1月1日将启用App Transport Security安全功能,即强制App通过HT ...
Windows Azure支持七层负载均衡--Application Gateway
一直以来Windows Azure的负载均衡(Loadbalancer)功能一直被客户诟病,无法其竞争对手(特别是国内的云厂商)匹敌. Windows Azure的负载均衡器是四层的,前期的版本不支持 ...
大型网站系统架构实践（四）http层负载均衡之haproxy实践篇（一）
方案上篇文章讲到了负载均衡的相关理论知识,这篇文章我打算讲讲实践方法以及实践中遇到的问题方案:haproxy http层负载均衡安装一个haproxy服务,两个web服务 haproxy:192 ...

随机推荐

[转]Android中Spinner下拉列表（使用ArrayAdapter和自定义Adapter实现）
今天学习了Spinner组件,使用Spinner相当于从下拉列表中选择项目,下面演示一下Spinner的使用(分别使用ArrayAdapter和自定义Adapter实现) (一):使用ArrayAda ...
log4net为什么会打印两次？
用“log4net 使用”做关键字在bing上搜索,点开排序第一的链接:http://33liuhongwei33.blog.163.com/blog/static/39923778201156101 ...
卷积神经网络CNN在自然语言处理的应用
摘要:CNN作为当今绝大多数计算机视觉系统的核心技术,在图像分类领域做出了巨大贡献.本文从计算机视觉的用例开始,介绍CNN及其在自然语言处理中的优势和发挥的作用. 当我们听到卷积神经网络(Convol ...
System.TimeDate
本篇将介绍时间类型. msdn官网:点击查看时间辅助类:点击查看方法:计算两个时间的时间差(年月日小时分钟),获取时间戳,时间格式转换,获取时间随机码定义:表示时间上的一刻,通常以日期和当天的 ...
Windows/Linux下查看系统CPU使用最高的线程
参考:https://blog.csdn.net/qq_27818157/article/details/78688580 jstack -l 31372 > c:/31372.stack
git(将现有项目加入osChina)
将现有项目加入osChina 在osChina中创建项目注意不要初始化项目.(其实初始化也没有什么问题,可以直接clone到本地,再把项目添加进去就行了,后续操作一样的) 项目现在基本为空,得到项目 ...
react中密码自动填充及解决火狐浏览器，360浏览器记住密码后，密码框自动填充终极解决方案
先直接上核心代码如下: 在火狐浏览器,360浏览器,初次加载,bug长这样: 如果你想通过生命周期componentDidMounted等生命周期进行置空操作都是不行的,这可能是浏览器自带的特性记住密 ...
Intellij IDEA 像eclipse那样给maven添加依赖，且Intellij idea里在pom.xml里添加Maven依赖，本地仓库下拉列表显示包很少的血的经验
打开pom.xml,在它里面使用快捷键:ALT+Insert ————>点击dependency 再输入想要添加的依赖关键字,比如:输个spring 出现下图: 根据需求选择版本,完成以后 ...
Logrotate实现Catalina.out日志每俩小时切割
一.Logrotate工具介绍 Logrotate是一个日志文件管理工具,它是Linux默认自带的一个日志切割工具.用来把旧文件轮转.压缩.删除,并且创建新的日志文件.我们可以根据日志文件的大小.天数 ...
Linux进程通信之匿名管道
进程间的通信方式进程间的通信方式包括,管道.共享内存.信号.信号量.消息队列.套接字. 进程间通信的目的进程间通信的主要目的是:数据传输.数据共享.事件通知.资源共享.进程控制等. 进程间通信之管 ...

SLB 7层负载均衡“HUNG”问题追查

SLB 7层负载均衡“HUNG”问题追查的更多相关文章

随机推荐

热门专题