【故障公告】取代 memcached 的 redis 出现问题造成网站故障

6月19日开始，我们将博客站点的缓存服务器从 memcached 换成了 redis，稳定运行了3天，今天上午访问高峰突然出现问题，在 11:00-12:30 期间影响了网站的正常访问，由此给您带来麻烦，请求谅解。

在故障期间，日志中大量的等待响应超时错误

StackExchange.Redis.RedisTimeoutException: Timeout awaiting response

其中的一个典型日志：

StackExchange.Redis.RedisTimeoutException: Timeout awaiting response (outbound=0KiB, inbound=6697KiB, 2937ms elapsed, timeout is 2000ms), command=GET, next: GET blog_v2_BlogPosts-291733, inst: 0, qu: 0, qs: 31, aw: False, bw: SpinningDown, rs: ReadAsync, ws: Idle, in: 0, in-pipe: 0, out-pipe: 0, serverEndpoint: 192.168.12.28:6379, mc: 1/1/0, mgr: 5 of 10 available, clientName: blog-web-c845b6686-zpl4s(SE.Redis-v2.5.61.22961), PerfCounterHelperkeyHashSlot: 11935, IOCP: (Busy=0,Free=1000,Min=20,Max=1000), WORKER: (Busy=19,Free=32748,Min=50,Max=32767), POOL: (Threads=73,QueuedItems=5,CompletedItems=2170212), v: 2.5.61.22961 (Please take a look at this article for some common client-side issues that can cause timeouts: https://stackexchange.github.io/StackExchange.Redis/Timeouts)

在确认是 redis 引起的故障后，我们立即采取了笨方法，将之前使用 memcached 缓存的部分切换回 memcached，切换后除了个人博客博文列表页面，其他访问都已恢复正常。

个人博客博文列表一级缓存已经切换到 memcached，但二级缓存还在使用 redis，所以依然受 redis 问题影响。

这时，我们重启了 redis，但重启后问题依旧。本来我们以为是并发高触发的问题，但我们的以为错了。我们重新进行了以为，既然不是并发多的原因，那可能是数据多的原因，flushall 清空 redis 中的数据后，很快恢复了正常。

接下来我们会进一步分析问题的原因，优化 redis 的部署，目前是在 k8s 集群上部署的非高可用 redis 集群（3个节点）。

【故障公告】取代 memcached 的 redis 出现问题造成网站故障的更多相关文章

【故障公告】数据库服务器 CPU 近 100% 引发的故障
抱歉,今天上午 10:48 ~ 10:33 期间,我们所使用的数据库服务(阿里云 RDS 实例 SQL Server 2016 标准版)又出现了 CPU 近 100% 问题,由此给您带来麻烦,请您谅解 ...
【故障公告】升级阿里云 RDS SQL Server 实例故障经过
昨天晚上,我们使用的阿里云 RDS SQL Server 2008 R2 实例突然出现持续 CPU 100% 问题,后来我们通过重启实例恢复了正常(详见故障公告).但是在恢复正常后发现了新问题,这台 ...
【故障公告】数据库服务器再次 CPU 100% 引发全站故障
今天五一劳动节的一大早 5:50-6:30 期间,我们使用的阿里云 RDS SQL Server 数据库实例再次出现 CPU 100% 问题,引发全站故障,由此给您带来麻烦,请您谅解. 我们发现故障后 ...
【故障公告】Memcached 的“惹祸”，不知在为谁背锅
在 .NET 5.0 背锅 . Memcached 的惹祸 .缓存雪崩之后,我们没有找到问题的真正原因,我们知道没有找到根源的故障总是会再次光临的,不是在这周就是在下周,也许就在双11前后. 就在今天 ...
【故障公告】数据库服务器 CPU 近 100% 引发的故障（源于 .NET Core 3.0 的一个 bug）
非常抱歉,这次故障给您带来麻烦了,请您谅解. 今天早上 10:54 左右,我们所使用的数据库服务(阿里云 RDS 实例 SQL Server 2016 标准版)CPU 突然飙升至 90% 以上,应用日 ...
【故障公告】docker swarm 集群问题引发的故障
我们的生产环境部署了 2 个 docker swarm 集群,集群 swarm-a 用于专门跑博客站点,集群 swarm-b 用于跑其他站点,manager 节点用了阿里云包月服务器,worker 节 ...
关于【【故障公告】数据库服务器 CPU 近 100% 引发的故障（源于 .NET Core 3.0 的一个 bug）】IS NOT NULL测试
测试如图,Core_Users的PhoneNumber可为空,存在索引,记录数1500000+ 增加is not null,查询计划消耗增加了一个0%的筛选器消耗,IO消耗如下一模一样如果是IS N ...
【故障公告】redis 服务器宕机引发博客站点故障
非常抱歉,今天下午 17:10~17:40 左右,由于博客系统所使用的 redis 服务器宕机,造成博客站点无法正常访问,由此给您带来很大的麻烦,请您谅解. 我们会针对这次故障改进 redis 服务器 ...
谈谈Memcached与Redis
1. Memcached简介 Memcached是以LiveJurnal旗下Danga Interactive公司的Bard Fitzpatric为首开发的高性能分布式内存缓存服务器.其本质上就是一个 ...

随机推荐

论文解读（MCGC）《Multi-view Contrastive Graph Clustering》
论文信息论文标题:Multi-view Contrastive Graph Clustering论文作者:Erlin Pan.Zhao Kang论文来源:2021, NeurIPS论文地址:down ...
POJ - 1321 A - 棋盘问题
A - 棋盘问题 http://poj.org/problem?id=1321 思路:不能搞双重循环嵌套,要注意可以跳过某行代码 #include <cstdio> #include & ...
HCIE笔记-第四节-MAC地址+网络层
mac地址 = 显示16进制 = 12个16进制数二进制[逢2进1] 0/1 = 0/1 10=2 11=3 100=4 101=5 110=6 111=7 1000=8 1001=9 1010=1 ...
【FAQ】HMS Core广告服务：如何获取正式广告位ID以及流量变现的受限情况
HMS Core广告服务开发指南中提到"xxxx为测试专用的广告位ID,App正式发布时需要改为正式的广告位ID",那么今天咱们就来说说,怎么获取正式的广告位ID. 测试广告位ID ...
杭电2091空心三角形Java（AC）
题目:http://acm.hdu.edu.cn/showproblem.php?pid=2091 把三角形写入二维数组里,然后输出出来注意事项: 1.三角形后面没有空格(每一层的后面) 2.三角形 ...
技术分享 | WEB 端常见 Bug 解析
对于 WEB 产品来说,有一些常见的 Bug,本章节挑选一些比较典型的 Bug 进行举例介绍. UI Bug 页面展示的时候,需要根据长度的边界值去设计用例进行验证. 一般来说都会有超长内容的验证 ...
Luffy /4/ 多方式登录接口&登录注册前端页面
目录 Luffy /4/ 多方式登录接口&登录注册前端页面腾讯云短信登录注册前端页面如何实现点击登录或图片进行跳转登录注册前端页面实现 Login.vue Register.vue H ...
Selenium3自动化测试【29】文件上传
日常在访问页面时,文件上传与下载操作也常常用到,因此在Web自动化测试中也会遇到文件上传的情况.针对上传功能,WebDriver并没有提供对应的方法.针对上传文件的场景主要有两种解决思路: 同步视频知 ...
改善java程序
1.用偶判断,不用奇判断.因为负数会出错. // 不使用 String str = i + "->" + (i%2 == 1? "奇数": "偶 ...
电机噪声之谐波分析（内附simulink中FFT分析的相关参数配置与解析）
电机噪声之谐波分析(内附simulink中FFT分析的相关参数配置与解析) 目录电机噪声之谐波分析(内附simulink中FFT分析的相关参数配置与解析) 写在前面正文电机噪声谐波的产生什么 ...

【故障公告】取代 memcached 的 redis 出现问题造成网站故障

【故障公告】取代 memcached 的 redis 出现问题造成网站故障的更多相关文章

随机推荐

热门专题