关于上面现象的分析如下

问题描述:

接口偶发性出现接口耗时过长的情况

根源:

“sockets的快速回收”机制被启动

简单代码+数据分析:

1.      经简单分析,耗时主要出现在连接数据库的方法:mysql_connect

2.      耗时基本为3s(3.001s,2.999s,3.000s)

进一步分析:

由于耗时出现在php的mysql_connect函数上,从代码上基本上可以确认非业务逻辑问题;

可能情况:

1、Mysql_connect具体实现问题

经查看具体代码,未发现有异常。

2、网络抖动

经抓包确认且不大可能为稳定为3秒,非此问题;

3、DNS解析

经分析直接绑定HOST与DNS解析对比,确认非此问题;

4、LVS抖动

根据出现时间,与LVS监控对比,确认非此问题

5、mysql服务器配置或者mysql配置存在问题

待分析

……

最终确认:

Mysql服务器配置问题,启动了“sockets的快速回收”机制

根据运维和DBA对app机器即(Client端)到mysql服务(Server端)的tcp日志抓包中出现了passive connection rejected because of time stamp,且抓到了syn数据包,这个即标识tcp请求一次握手成功

为说明此问题,需要补充以下知识点:

(1)       公司的机器部署架构

大部分公司用LVS做负载均衡,通常是前面一台LVS,后面多台后端服务器,它便转发给后端服务器

(2)       TCP协议中的三次握手

(3)  “sockets的快速回收”机制

a)      目的:sockets快速回收

b)      行为解释:可以缓存每个连接最新的时间戳,后续请求中如果时间戳小于缓存的时间戳,即视为无效,相应的数据包会被丢弃。

c)      涉及参数:tcp_timestamps和tcp_tw_recycle

i.       tcp_timestamps默认为1,tcp_tw_recycle默认为0

ii.      当tcp_timestamps与tcp_tw_recycle同时为1时,表示此机制开启

结论分析:

在有LVS做负载均衡的情况下,,对于后端服务器来说,请求的源地址就是LVS的地址((nat模式才会修改源地址,我们用的都是dr模式)),加上端口会复用,

所以从后端服务器的角度看,原本不同客户端的请 求经过LVS的转发,就可能会被认为是同一个连接,于是后面的数据包就被丢弃了。

具体的表现通常是是客户端明明发送的SYN,但服务端就是不响应ACK

后续思考:

1、

既然必须同时激活tcp_timestamps和tcp_tw_recycle才会触发这种现象,那只要禁止 tcp_timestamps,同时激活tcp_tw_recycle,

就可以既避免丢包问题,又降低TIME_WAIT连接数量。如果服务器并不 依赖于RFC1323,那么这种方法应该也是可行的,不过最好多做测试,以防有其他的副作用。

2、为什么是3s?

建立连接时SYN超时,如果server端接到了clien发的SYN后回了SYN-ACK后client掉线了,

server端没有收到client回来的ACK,那么,这个连接处于一个中间状态,即没成功,也没失败。

于是,server端如果在一定时间内没有收到的TCP会重发SYN-ACK。在Linux下,默认重试次数为5次,

重试的间隔时间从1s开始每次都翻售,5次的重试时间间隔为1s, 2s, 4s, 8s, 16s,总共31s,

第5次发出后还要等32s都知道第5次也超时了,所以,总共需要 1s + 2s + 4s+ 8s+ 16s + 32s = 2^6 -1 = 63s,

TCP才会把断开这个连接。但跟运维沟通之后我们的重试机制时间间隔为3s。

3、安全起见,通常要禁止tcp_tw_recycle,至于TIME_WAIT连接过多的问题,可以通过激活tcp_tw_reuse来缓解

以上分析如有纰漏,麻烦指正,谢谢!

关于goneaway及499的更多相关文章

  1. nginx 499 状态码优化

    在grafana界面中发现不少499的状态码,在网上了解到出现499的原因大体都是说服务端处理时间过长,客户端主动关闭了连接.   既然原因可能是服务端处理时间太长了,看一下upstream_resp ...

  2. Nginx状态码499

    1.问题描述 140.207.202.187 - - [18/May/2016:10:30:58 +0800] "POST/v3/violations HTTP/1.1" 499 ...

  3. Nginx_HTTP 499 状态码 nginx下 499错误

    日志记录中HTTP状态码出现499错误有多种情况,我遇到的一种情况是nginx反代到一个永远打不开的后端,就这样了,日志状态记录是499.发送字节数是0. 老是有用户反映网站系统时好时坏,因为线上的产 ...

  4. Nginx 499错误的原因及解决方法

    今天进行系统维护,发现了大量的499错误, 499错误 ngx_string(ngx_http_error_495_page), /* 495, https certificate error */n ...

  5. NginX issues HTTP 499 error after 60 seconds despite config. (PHP and AWS)

    FROM: http://stackoverflow.com/questions/15613452/nginx-issues-http-499-error-after-60-seconds-despi ...

  6. Nginx的 HTTP 499 状态码处理

    1.前言 今天在处理一个客户问题,遇到Nginx access log中出现大量的499状态码.实际场景是:客户的域名通过cname解析到我们的Nginx反向代理集群上来,客户的Web服务是由一个负载 ...

  7. nginx 499状态码

    Web服务器在用着nginx,在日志中偶尔会看到有499这个错误. rfc2616中,400-500间的错误码仅定义到了417,所以499应该是nginx自己定义的.后来想到读读nginx代码,疑问立 ...

  8. HTTP请求的502、504、499错误

    1.名词解释 502 Bad Gateway:作为网关或者代理工作的服务器尝试执行请求时,从上游服务器接收到无效的响应(伪响应). 504 Gateway Time-out:作为网关或者代理工作的服务 ...

  9. Codeforces Round #499 (Div. 2)

    Codeforces Round #499 (Div. 2) https://codeforces.com/contest/1011 A #include <bits/stdc++.h> ...

随机推荐

  1. linux rpm包的编译

    有些软件包的特性是编译者选定的,如果编译未选定此特性,将无法使用.rpm包的版本落后于源码包. 因此需要定制安装,也就是手动编译安装. 编译需要编译环境. 编译的过程如下: 1.下载源码 2.执行 t ...

  2. matlab之sub2ind()函数

    将下标转换为线性索引 语法 linearInd = sub2ind(matrixSize, rowSub, colSub) 说明 linearInd = sub2ind(matrixSize, row ...

  3. c版基于链表的插入排序(改进版)

    1. [代码][C/C++]代码 /** * @todo    c版基于链表的插入排序 * @author  Koma **/#include<stdio.h>#include<st ...

  4. RadioButton控件选中、取消

    js: var flag = true; function chkRadio(id) { id.checked = flag; flag = !flag; } aspx.cs: this.rbtKey ...

  5. php版微信公众平台开发之验证步骤实例详解

    本文实例讲述了php版微信公众平台开发之验证步骤.分享给大家供大家参考,具体如下: 微信公众平台开发我们现在做得比较多了,这里给各位介绍的是一个入门级别的微信公众平台验证基础知识了,有兴趣的和小编来看 ...

  6. 关于unity3D的GL图像库的使用

    GL图象库 GL图象库是底层的图象库,主要功能是使用程序来绘制常见的2D与3D几何图形.这些图形具有一定的特殊性,他们不属于3D网格图形,只会以面的形式渲染.使用GL图象库,可在屏幕中绘制2D几何图形 ...

  7. Vue2.0 Transition常见用法全解惑

    Vue2.0的过渡系统(transition)有了很大的改变,想把1.0的项目迁移到2.0,着实需要费一些功夫,今天我就要把vue2.0的过渡系统的用法搞清楚,因为之前确实踩了不少坑.这里只涉及单元素 ...

  8. Geoserver端口冲突解决方案

    转载:https://blog.csdn.net/wiinder/article/details/53260642 今天在安装Geoserver的时候遇到了端口冲突的问题,即默认的8080端口与Tom ...

  9. http接口测试框架-遇到的问题

    遇到过很多问题 如图,结果做作对比的时候,发现返回的结果有一个error_code: 0,中间有一个空格,导致对比失败 解决方法:打印出结果,再对比,case里的预期结果是否一致,有时候是填写的错误 ...

  10. 关于pyhton中的__xxx__格式的方法与变量的理解

    python中类似__xx__的方法和变量是python系统内定义的方法和变量,都是具有特殊意义的基础变量和方法,一般不要擅自使用,除非知道自己在干什么. 具体查看python内置模块builtins ...