程咬金有三板斧,我们有三招。在这篇博文中我们要出第三招,同时也意味着昨天在“希望的田野”上的第二招失败了。

前两招打头(CPU)不凑效,这一招要换一个部位,但依然要坚持攻击敌人最弱(最忙最累)部位的原则。那除了CPU,最忙最累的部位是哪里呢?对于Web服务器来说,毫无悬念,当然是网卡。而且阿里云的云服务器,所有的网络负载都集中在一块内网网卡上,SLB(负载均衡)用它,OCS(缓存服务)用它,RDS(数据库服务)也用它。所以,就对它出招!

招式受这篇博文(XenServer – Windows 2003 TCP checksum issue)的启发,博主通过禁用TCP/IP Offload解决了“通过IIS下载文件中途突然卡住”的问题。TCP/IP Offload的初衷就是让网卡帮CPU分担一些TCP/IP协议栈的处理工作,比如检查checksum、发ack包,在物理机环境下,它是提高网络处理性能的功臣。但是在虚拟机环境下,网卡是虚拟出来的,它的作用就有待商榷与验证。于是,禁用它成为第三招的招式。

有了目标部位与招式,还等什么,出招!

开始的时候,我们偷了点懒,只出了两个手指,想点穴取胜——只禁用了网卡的Checksum Offload与Check checksum on RX packets。

结果,“黑色1秒”依旧。

恼火之下,接着干脆南拳北腿一起出,南拳是在注册表(HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Services\Tcpip\Parameters\)中添加DisableTaskOffload=1(禁用TCP/IP Offload),北腿是在同样的注册表位置添加EnableRSS=1(Receive-Side Scaling,充分利用多核CPU的优势提高网络处理性能,详见这里)。

注册表设置好之后,重启计算机。。。

结果敌人被成功被击倒!自13:30左右被击倒后,到现在(21:20)也没爬起来(黑色1秒没出现)。如果明天一天还没能爬起来,我们就可以宣布获胜了。

后来,我们在另外一台服务器上发现只要用拳头(只添加DisableTaskOffload=1)就可以把敌人干倒,到目前也没爬起来,这还要进一步观察。

是否真的能三招致胜,明天就会见分晓!

【更新】

结果,第二天早上黑色1秒再次出现。

【第三招增强版】

后来发现北腿出错了,应该是禁用Receive-Side Scaling。Windows Server 2012中默认就启用了Receive-Side Scaling,可以通过以下命令查看:

netsh int tcp show global

命令运行结果:

所以第三招增强版就是禁用Receive-Side Scaling,操作命令如下:

netsh int tcp set global rss=disabled

命令运行结果:

禁用Receive-Side Scaling之后有个意外的发现,CPU的8个核的负载分配更均匀了。

第三招增强版的效果还需要一段时间的观察。

【参考资料】

Windows Server 2008 network speed slow, Xen 3.4.3 HVM ISO

XenServer – Windows 2003 TCP checksum issue(文中有一个地方写错了,应该是DisableTaskOffload=1)

Citrix XenServer Slow Network Performance

TCP Offload Performance Impact

Performance Tuning Windows 2012: Network Subsystem–Part 1

云计算之路-阿里云上:消灭“黑色n秒”第三招——禁用网卡的TCP/IP Offload的更多相关文章

  1. 云计算之路-阿里云上:“黑色1秒”问题与2009年Xen一个补丁的故事

    在之前对“黑色1秒”问题的分析博文中,我们将最大嫌疑对象锁定在了Xen,在这篇博文我们将从Xen的角度进行分析.也许有人会问,为什么不知道天多高地多厚地去研究不属于自己范围的问题?只因我们对一个问题的 ...

  2. 云计算之路-阿里云上:“黑色1秒”最新线索——w3tp与w3dt

    向大家分享一下最近排查“黑色1秒”问题的进展,“黑色1秒”的问题表现详见什么是黑色1秒. 1. 发生在w3wp进程内 判断依据:“黑色1秒”期间,http.sys的HTTP Service Reque ...

  3. 云计算之路-阿里云上:从ASP.NET线程角度对“黑色30秒”问题的全新分析

    在这篇博文中,我们抛开对阿里云的怀疑,完全从ASP.NET的角度进行分析,看能不能找到针对问题现象的更合理的解释. “黑色30秒”问题现象的主要特征是:排队的请求(Requests Queued)突增 ...

  4. 云计算之路-阿里云上:Web服务器遭遇奇怪的“黑色30秒”问题

    今天下午访问高峰的时候,主站的Web服务器出现奇怪的问题,开始是2台8核8G的云服务器(ECS),后来又加了1台8核8G的云服务器,问题依旧. 而且3台服务器特地使用了不同的配置:1台是禁用了虚拟内存 ...

  5. 云计算之路-阿里云上:原来“黑色0.1秒”发生在socket读取数据时

    在昨天的博文(云计算之路-阿里云上:读取缓存时的“黑色0.1秒”)中我们犯了一个很低级的错误——把13ms算成了130ms(感谢陈硕发现这个错误!),从而对问题的原因作出了错误的推断,望大家谅解! 从 ...

  6. 云计算之路-阿里云上:SLB会话保持的一个坑

    冒着被大家厌烦的风险,今天再发一篇“云计算之路-阿里云上”.这是在前一篇发过之后真实发生的事情,我们觉得定位问题的过程值得分享.而且估计园子里不少朋友被这个问题骚扰过,我们有责任让大家知道问题的真正原 ...

  7. 云计算之路-阿里云上-容器难容:容器服务故障以及自建 docker swarm 集群故障

    3月21日,由于使用阿里云服务器自建 docker swarm 集群的不稳定,我们将自建 docker swarm 集群上的所有应用切换阿里云容器服务 swarm 版(非swarm mode). 3月 ...

  8. 云计算之路-阿里云上-新发现:又一种与虚拟内存有关的CPU波动情况

    在云上真是无奇不有,昨天偶然间发现在IIS的应用程序池回收设置中,仅仅设置了一下基于虚拟内存限制的回收,就引发了CPU有规律的波动.在这篇博文中,我们将向大家汇报一下云计算之路上的这个小发现. 在之前 ...

  9. 云计算之路-阿里云上:启用Windows虚拟内存引发的CPU 100%故障

    今天上午11:35~11:40左右,由于负载均衡中的两台云服务器CPU占用突然飚至100%,造成网站5分钟左右不能正常访问,请大家带来了麻烦,请谅解! (上图中红色曲线表示CPU占用) 经过分析,我们 ...

随机推荐

  1. 前端html、Javascript、CSS技术小结

    简单地总结了一下前端用过的html.javascript.css技术,算是清点一下,做个大略的小结,为进一步的学习给个纲领. 一.HTML 由于HTML5的兴起,简单地判断一个网页是否是html5网页 ...

  2. ajax 跨域请求时url参数添加callback=?会实现跨域问题

    例如: 1.在 jQuery 中,可以通过使用JSONP 形式的回调函数来加载其他网域的JSON数据,如 "myurl?callback=?".jQuery 将自动替换 ? 为正确 ...

  3. JS继承模式粗探

    之前提到了JS中比较简单的设计模式,在各种设计模式中被最常使用的工具之一就是原型链的继承.作为OOP的特质之一——继承,今天主要谈谈JS中比较简单的继承方法. 最基础的原型链继承在这里就不复述了,主要 ...

  4. 【ios面试总结】

    一 C语言方法的知识 1: const  static  voilite 修辞变量各代表什么意思? const  修辞的变量为常量,常量是不容许修改.  static  修辞的变量为静态变量,在内存中 ...

  5. ZabbixCPU温度监视-windows2008R2

    1, speed-fan安装 SpeedFan - Access temperature sensor in your computer / http://www.almico.com/speedfa ...

  6. storysnail的Windows串口编程笔记

    storysnail的Windows串口编程笔记 作者 He YiJun – storysnail<at>gmail.com 团队 ls 版权 转载请保留本声明! 本文档包含的原创代码根据 ...

  7. Asp.net vnext的IIS部署

    微软前段时间推出asp.net vnext,自个也尝试了一把,也写了几篇关于vnext特性的博客,如下. 但一直有个困扰的问题,asp.net vnext如何在iis部署,因为整个目录结构跟之前有了很 ...

  8. 计划参照mysql-proxy编写mssql-proxy

    目前使用haproxy做了mssql多个读库的负载均衡,在生产环境中运行得不错. 不过,这个方案有缺点:客户端需要选择是使用读库,还是写库.这样还是不够方便,如果能够实现自动路由就更好了,即让hapr ...

  9. RCP:美化基于eclipse3.7.2的RCP界面

    从e4开始,eclipse rcp界面具备了深度自定义的能力. 但是在eclipse3.7.2上,几乎没有提供能够用于修改界面的外部接口. 这里介绍一种方式来自定义你自己的eclipse rcp. 先 ...

  10. 【原创】三分钟教你学会MVC框架——基于java web开发(2)

    没想到我的上一篇博客有这么多人看,还有几位看完之后给我留言加油,不胜感激,备受鼓励,啥都别说了,继续系列文章之第二篇.(如果没看过我第一篇博客的朋友,可以到我的主页上先浏览完再看这篇文章,以免上下文对 ...