最近接连听说一台线上服务器总是不响应客户端请求。

登录服务器后查询iis状态,发现应用程序池状态变为已停止。

按经验想,重启后应该就ok,第一次遇到也确实起了作用,当时完全没在意,以为是其他人无意把服务关闭了而已。

但是之后几天几乎每天都出现问题,应用程序池再次成为 已停止 状态。这个情况显然有问题。于是开始排查设置。

线上环境很简单,iis + API应用,数据库在内网上,没有反向代理。

出问题的应用程序池承载了一个基础数据API,查询量极小,数据量也极小,只是因为同事做实现时提过,查询很麻烦,所以我让他同时也检查代码的查询是否过于繁琐产生超出设置上限的资源占用。

但根据同事检查结果,这个情况不存在,数据库查询响应非常快,服务器的资源监控上看相关进程也没有出现明显的资源飙升。因此判断服务端代码应该没有问题。

经验路线在这里就走不通了,只能尝试在设置上找原因。 iis对应用程序池的设置里最可能影响服务的是回收策略的设置。为了避免影响其他服务,部署时设置了这个api的专用内存上限到1GB。当然,既然代码检查没有问题,测试运行也没发现资源飙升的情况,回收的专用内存上限应该不会轻易触发。但是还是检查了设置,毕竟从前有同事设置时把1GB给成了100M,除了登录之外执行不了任何请求。

最终想到用netstat检查端口情况。起初的怀疑是端口被其他进程无意占用导致问题。

启动netstat后,让测试发了几次请求,顺利看到进程出现在列表,且没有端口冲突,对端地址经查证是来自app。当然,也注意到服务器状态是一堆 Close_Wait.

当然我经验少,Close_Wait还真是第一次见。不过既然状态不是Established,这个应该就是问题的原因了。开始查资料,学习Close_Wait状态是什么情况。

对于 服务器的连接状态而言,一般有三种比较常见的: Established、 Time_Wait、Close_Wait。

从别人博客上扒了一张原理图:

通过原理图,我们知道了CLOSE_WAIT是被动关闭的状态。什么意思呢?比如客户端发了个请求,正常情况下是会收到服务器响应一个状态的,即Response。当客户端读取了这个返回后,会主动告诉服务器收到了,关闭连接。

由于是客户端发起关闭连接的请求,在TCP协议下双方需要通过四个包的互发完成双向确认工作,才能最终关闭这个连接。

客户端要求关闭,此时客户端状态为 FIN_WAIT_1,同时向服务器发送了 FIN 包,服务器状态变更为CLOSE_WAIT;

当然,服务器需要对收到FIN包向客户端确认,于是服务器向客户端发送了 ACK 包,客户端因此变更状态为FIN_WAIT_2;

服务器处理了这个确认后,再次主动向客户端发送FIN包,同时自己状态变更为LAST_ACK,收到来自服务器FIN包的客户端也将自己状态变更为TIME_WAIT;

最后一步,客户端会对来自服务器的FIN包回复确认,服务器收到该ACK包后,将自己状态置为CLOSED,如此,整个关闭过程结束。

简单说就是,客户端 -》 服务器,我要关闭,服务器回复OK,并开始处理后续;服务器后续处理好后,再告诉客户端我可以关闭了,客户端确认,服务端关闭。

所以,出现CLOSE_WAIT状态的原因是,服务器一端因故没有向客户端发出FIN包,即服务端的LAST_ACK -- FIN -->客户端这步没能执行。

因此,看到CLOSE_WAIT状态后,那么可以确定服务器没有执行后续动作,即调用socket.Close()。

举一反三,即谁被动关闭,则谁的连接释放代码有问题。

但是socket.Close()的调用应当是由web服务器自己完成呀,所以问题还没确定。写api的同事轻描淡写提了一下说代码没关闭链接,但越想越不对。到底什么原因导致没有进行socket.Close(),还需要具体从代码入手。

不过,虽然没有真正搞明白我们遇到的原因,但是原理清楚了,排查的时候还顺手看到客户端的代码存在的问题。后续搞清楚了再更。

【1212更新】

终于有空来继续查这个问题了。

前次排查的时候,在没有完全理顺这个原理的情况下认为是客户端(Android)上一段关于登陆请求的超时处理问题。我是被几篇HttpClient的文章干扰了。在那几篇文章里,作者说是因为调用HttpClient组件后,没有对请求资源进行释放(即Response.Body.Dispose()),因此造成了CLOSE_WAIT状态。 但作者没说清楚。就像前文分析的一样,服务端出现CLOSE_WAIT,根本问题一定是服务端的代码有问题。当然,既然排故,就顺便一说。在同事的请求部分代码上,设置了Timeout时间,并且做了不太安全的异常处理:

 ...
Response res = client.newCall(request).execute();
if(res.isSuccessful()){
return res.body().string();
}
else{
throw new IOException("Unexpected code" + res);
}
...

并且这段代码在一组try catch 内部,且仅catch了IOException 【我没细看OKClient的文档,不清楚是否有其他的Ex可能性】

这段代码的问题在于,一定要使用try catch进行流程控制并不合理。此外,response会带有服务端返回的标准Http 状态,因此此处对非200状态的处理过于粗糙,浪费性能。 所以在服务端出现大量CLOSE_WAIT后,这里应该收到大量的500状态,非200只需要正常输出信息并做相应操作即可。

【像Try catch这样的代码,更好的使用方式是用于做应对不可预料的错误,而不是逻辑分支控制。大多数的错误应当由正常的检验代码进行处理。】

但是这部分代码最多给客户端造成问题,不会导致服务端出错。

因此,我们转回看服务端问题。

因为出问题的只有Login操作,于是在清楚问题的原理后,同事为Login操作加上了超时的判定。所以我的余下分析只能在修改后的代码上进行。

public void TLogin(string username, string pwd,out string resultJson)
{
using (RtuHmiEntities db = new RtuHmiEntities())
{
var user = db.Base_Users.Where(x => x.UserCode == username && x.Password == pwd).ToList();
if (user.Count() == )
{
resultJson = user.ToJSON();
return;
}
var siteList = db.SiteTable.Select(x => new { ID = x.Id, Name = x.SiteName }).ToList();
var dtuList = db.DtuTable.Where(x => x.SiteId == null).Select(x => new { ID = x.ID, Name = x.DtuName }).ToList();
var regularboxList = db.PressBoxTable.Select(x => new { ID = x.Id, Name = x.BoxName }).ToList();
var valveList = db.ValveChamber.Select(x => new { ID = x.Id, Name = x.Name }).ToList();
var result = new
{
Stations = siteList,
BusinessUsers = dtuList,
Regularboxes = regularboxList,
Valverooms = valveList
};
resultJson = result.ToJSON();
}
}

当然,仔细看了登陆操作的业务代码后,我们能发现一些问题。在这个项目上,登陆后需要初始化一些列表类的信息给客户端。这里的操作当然没什么问题。因为同事在参与这个项目时,不止一次向我抱怨数据库设计有问题,查询很繁琐。但是我没有在这个项目上,所以没有具体关注数据库设计的缺陷。

不过从这段代码看,前端需要接受4组信息,分别是 Stations、 BusinessUsers、 RegularBoxes、 Valverooms,数据库给了四张表。这里采用Linq进行查询操作。一般说来,问题不大。实际上,这段代码里查表的部分实际的执行也没有任何明显性能不足的情况。硬挑的话,第一个分支里对空集合转Json反倒会产生不必要的损失。即便如此,在正常情况下,请求执行时间在200ms以内。

既然代码在测试下并没有什么问题,那原因在哪呢?

回想了一下,IIS有一项设置是回收策略的。因为原先遇到过因为回收没有自己定义,几个旧版的很占资源的API还没更新的时候就在回收周期内把服务器资源吃满了,导致其他api无法运行。所以后来会根据测试时的资源情况为线上服务器设置这个回收值。当然,对于一个不怎么复杂的查询类API而言,并不需要多大的资源。于是第一次设置计划给200M的专用内存。不过显然,因为某一两个数据量比较大的API在短时内重复请求,造成了回收,此时登陆测试碰巧遭遇了释放,于是就造成了上述 服务端被动关闭连接,且没有继续向客户端返回FIN包的状态,最终产生了几条CLOSE_WAIT。

回想一下,大家遇到的CLOSE_WAIT基本上都是大量出现,而我们遇到的情况只有少量的几条,远没达到客户端测试的请求数量。排查下来看也确实是调试的时候遇到的小概率问题。不过不清楚原理的话,排查起来还是很没头绪的。论理论的必要性。在大多数时候,不需要那么精通理论能做到80分,但是想做到99分甚至更高,就是拼对理论的理解深度了。

【Finally,解决方案】

实际上我们为这个问题修正了三个地方。

第一是对客户端代码上做了修改,改进非200请求的反馈方式。

第二是将iis的回收策略修改,提高了专用内存的上限,降低回收时间间隔【看来从实际出发,这样做更有效】

第三,依然对服务端代码进行了修改,对部分请求增加了超时的处理,至于发现的不太利于性能的代码,也会在重构时改进。

当然,对这个问题贡献比较大的是前两条。毕竟出现的主要情况还是服务端被动关闭。

这个问题我当然还没研究的太深。如果有错误请务必指出。

相关资料:

http://blog.csdn.net/shootyou/article/details/6622226

http://mp.weixin.qq.com/s?__biz=MzI4MjA4ODU0Ng==&mid=402163560&idx=1&sn=5269044286ce1d142cca1b5fed3efab1&3rd=MzA3MDU4NTYzMw==&scene=6#rd

感谢以上优秀的技术文章。

【服务器】一次对Close_Wait 状态故障的排查经历的更多相关文章

  1. TCP之 TIME_WAIT和CLOSE_WAIT 状态 的原因分析和处理

    转自:http://blog.csdn.net/shootyou/article/details/6622226 昨天解决了一个HttpClient调用错误导致的服务器异常,具体过程如下: http: ...

  2. 服务器大量TIME_WAIT和CLOSE_WAIT的原因及解决办法

    Linux服务器下查看网络连接的状态 netstat -n | awk '/^tcp/ {++S[$NF]} END {for(a in S) print a, S[a]}' 它会显示例如下面的信息: ...

  3. TIME_WAIT和CLOSE_WAIT状态区别

    [TIME_WAIT和CLOSE_WAIT状态区别] 常用的三个状态是:ESTABLISHED 表示正在通信,TIME_WAIT 表示主动关闭,CLOSE_WAIT 表示被动关闭. TCP协议规定,对 ...

  4. 关于close_wait状态的理解

    以web服务器产生大量的close_wait状态为例 1.close_wait状态介绍: 客户端主动关闭连接,服务器接收到客户端的FIN,但是还没有发送自己的FIN,此时的状态为close_wait状 ...

  5. 服务器返回的各种HTTP状态码介绍

    [摘要]HTTP状态码(HTTP Status Code)是用以表示网页服务器HTTP响应状态的3位数字代码.它由 RFC 2616 规范定义的,并得到RFC 2518.RFC 2817.RFC 22 ...

  6. close_wait状态和time_wait状态(TCP连接)

    1.CLOSE_WAIT的简单解决方案 不久前,我的Socket Client程序遇到了一个非常尴尬的错误.它本来应该在一个socket长连接上持续不断地向服务器发送数据,如果socket连接断开,那 ...

  7. TCP连接的TIME_WAIT和CLOSE_WAIT 状态解说【转】

    相信很多运维工程师遇到过这样一个情形: 用户反馈网站访问巨慢, 网络延迟等问题, 然后就迫切地登录服务器,终端输入命令"netstat -anp | grep TIME_WAIT | wc ...

  8. CLOSE_WAIT状态的原因与解决方法(转载留自己看)

    这个问题之前没有怎么留意过,是最近在面试过程中遇到的一个问题,面了两家公司,两家公司竟然都面到到了这个问题,不得不使我开始关注这个问题.说起CLOSE_WAIT状态,如果不知道的话,还是先瞧一下TCP ...

  9. 【网络编程】服务端产生大量的close_wait状态的进程分析

    首先要明白close_wait状态是在tcp通信四次握手时的一个中间状态: 即当被动关闭方发送完ACK后进入的状态.这个状态的结束,即要达到下一个状态LASK_ACK需要在发无端发送完剩余的数据后(s ...

随机推荐

  1. 基于gulp的前端自动化方案

    前言 ​ 最近几年前端技术发展日新月异,特别是单页应用的普及.组件化.工程化.自动化成了前端发展的趋势.webpack已经成为了前端打包构建的主流,但是一些老古董的项目还是存在的,也有优化的必要,正好 ...

  2. PCIeの数据链路层与物理层详解

    数据链路层(DLL,Data Link Layer)的主要作用是进行链路管理(Link Management).TLP错误校验.Flow Control(流控制)和Link功耗管理.不仅可以接收发送来 ...

  3. liunx驱动----信号量的实现

    使用信号量必须包含  <asm/semaphore.h>  头文件.其中相关结构体  struct semaphore 可以通过以下几种方式来声明或者初始化. 1.void sema_in ...

  4. 深入了解RabbitMQ工作原理及简单使用

    深入了解RabbitMQ工作原理及简单使用 RabbitMQ系列文章 RabbitMQ在Ubuntu上的环境搭建 深入了解RabbitMQ工作原理及简单使用 RabbitMQ交换器Exchange介绍 ...

  5. j网络爬虫之WebMagic

    WebMagic官网:http://webmagic.io/ 注意: 1.在自定义PageProcessor中使用System.out.println(“str”),Spider.create(new ...

  6. 管线命令(Pipe)

    管线命令接受|前面传来的stdout,管线示意图如下所示: 管线两个需要注意的地方: 1.管线仅会处理stdout,忽略对stderr的处理 2.管线必须接受前个指令的stdin才是 那么,如果我想接 ...

  7. MFC学习笔记1---准备工作

    什么是MFC MFC,全称Microsoft Foundation Classes,微软基础类库,顾名思义,是微软的攻城狮们将一些常用的基础的Windows API 函数用C++的形式封装成类,简化程 ...

  8. Intelli IDEA快捷键(配合IdeaVim)(转)

    Intelli IDEA快捷键(配合IdeaVim)(转) Intelli IDEA开发环境,个人总结的一些常用的快捷键. 想要使用vim方式编辑代码,可以使用Intelli IDEA的IdeaVim ...

  9. python如何调用c编译好可执行程序

    python如何调用c编译好可执行程序       以下总结出几种在Python 中调用 C/C++ 代码的方法 ------------------------------------------- ...

  10. MySQL 5.7

    博客地址:https://www.cnblogs.com/runningStudy/p/6444047.html mysql官网下载地址:https://downloads.mysql.com/arc ...