非常抱歉,今天凌晨博客站点负载均衡中所有3台服务器的IIS应用程序池突然停止工作,造成 1:20-7:45 左右博客站点无法正常访问,由此给您带来很大的麻烦,请您谅解. 服务器操作系统是 Windows Server 2016,对应的 IIS 错误日志如下: A process serving application pool 'www.cnblogs.com' suffered a fatal communication error with the Windows Process Activ…
非常抱歉,今天下午 17:10~17:40 左右,由于博客系统所使用的 redis 服务器宕机,造成博客站点无法正常访问,由此给您带来很大的麻烦,请您谅解. 我们会针对这次故障改进 redis 服务器的部署,提高 redis 服务器的高可用性.目前 redis 服务是用阿里云服务器单独部署的,还没部署到 k8s 集群上. 没想到下半年的第一篇博文竟然是故障公告,为了凑足字发到首页,简单向大家汇报一下园子的近况. 转眼间2021年上半年过去了,园子的审核工作还没全部完成,我们依然在努力还债. 20…
[置顶] IIS应用程序池多工作进程设置及Session共享   在调优iis的时候,朋友分享给我一个特别棒的设置方法步骤,感谢好朋友的分享. IIS应用程序池多工作进程设置及Session共享 1 概述 微软的IIS作为Windows平台下Asp.Net网站发布的默认WEB服务器,在性能上提供了比较大的弹性和可伸缩性,通过应用程序池工作进程数的设置,可以支持从几十到上万并发数量的访问.本文档对相应设置过程进行操作指引,并对设置过程中的注意事项进行重点描述. 2 应用程序池多工作进程设置 根据以…
非常抱歉,昨天 18:40~19:10 再次遭遇上次遇到的 SQL 语句执行超时引发的网站首页访问故障,由此您带来麻烦,请您谅解. 上次故障详见故障公告,上次排查下来以为是 SQL Server 参数嗅探问题引起的,但在引起参数嗅探的漏洞被修复后今天再次出现故障说明上次的判断是错误的. 今天出现故障时的表现与上次一样,唯一不同的地方是这次比上次更糟糕,即使主备切换也无法恢复. 后来我们从 SQL 语句本身下手,给查询首页博文列表的 SQL 语句添加了时间条件才恢复正常. , getdate())…
今天傍晚 17:38-18:18 左右,由于 docker swarm 集群出现 "The swarm does not have a leader" 问题,造成博问.闪存.园子.小组.openapi 无法正常访问,由此给您带来麻烦,请您谅解. 目前我们已经迁移至 asp.net core 的站点都部署在 docker swarm 集群上,节点用的是阿里云服务器,操作系统是 ubtunu 16.04 ,docker engine 版本是 17.06.0-ce, build 02c1d8…
今天傍晚 17:38-18:18 左右,由于 docker swarm 集群出现 "The swarm does not have a leader" 问题,造成博问.闪存.园子.小组.openapi 无法正常访问,由此给您带来麻烦,请您谅解. 目前我们已经迁移至 asp.net core 的站点都部署在 docker swarm 集群上,节点用的是阿里云服务器,操作系统是 ubtunu 16.04 ,docker engine 版本是 17.06.0-ce, build 02c1d8…
非常抱歉,从昨天上午开始,部署在 k8s 集群上的博客后台(基于 .NET Core 3.1 + Angular 8.2 实现)出现奇怪问题,一到访问高峰就多次出现 502 ,有时能自动恢复,有时需要我们手动删除 pod ,由此给您带来麻烦,请您谅解. 我们的应用都部署在同一个 k8s 集群上,就这一个应用出现这个问题,很是奇怪,估计还是应用本身的问题,我们正在进一步排查. 为了避免再次出现这个问题,今天中午我们已经将博客后台暂时单独部署到 docker swarm 集群上.…
网站其中的一个应用服务器最近频繁出现IIS应用程序池停止的问题,通过任务管理器查看发现有6个w3wp.exe进程,一般一个应用程序池只占有一个w3wp.exe进程,为什么会出现多个呢,通过查看其它服务器IIS应用程序池的设置,发现出现问题的应用程序池的Web园被设置成了6个. 其它有用的资源: IIS:w3wp.exe进程占用cpu和内存过多的处理办法 查看IIS进程W3WP.exe对应网站进程池的PID 我的服务器进程里为什么有很多 w3wp.exe 怎么处理…
今天上午11:10,我们又中"奖"了,我们使用的阿里云 RDS 实例(SQL Server 2016 标准版,16核32G)突发出现 CPU 100%,引发全站故障,直到 12:15 才完全恢复,由此给您带来很大的麻烦,请您谅解. 这是我们今年的第3次中"奖",前2次分别发生在 2020-06-24 3:20~8:30 (详见故障公告)与 2020-08-20 20:55~21:14(详见故障公告). 相比前2次,这次中了一个大"奖",发生在访问…
非常抱歉,今天下午14:40-15:00左右,web服务器突然雪崩似的出现CPU 100%问题,造成博客站点无法访问(503).由此给您带来很大的麻烦,请您谅解. 在问题出现之前,博客站点运行着5台web服务器,4台4核8G的阿里云-计算型(原独享)sn1系列II-服务器,1台8核8G的阿里云c1型系列I服务器.本来今天下午并不是一周的访问最高峰,这5台服务器绰绰有余.但14:40左右开始,某种未知的情况引起这5台服务器雪崩似的接连地出现CPU 100%.雪上加霜的是,倒下去的服务器没能很快地站…