最近遇到了奇怪的阿里云 RDS 数据库突发 CPU 近 100% 问题,遇到了3次. 第一次是10月12日(周六)凌晨 3:24 负载极低的时候开始出现,早上发现后进行了主备切换,恢复了正常. 第二次也是出现在10月12日,就在主备切换后不久,发现后又进行了主备切换,切换回之前出问题的服务器,恢复了正常. 第三次是昨天(10月18日)23:15 开始出现,今天早上(也是周六)发现后,再次通过主备切换恢复了正常. 阿里云 RDS 型号用的是 SQL Server 2016 标准版,是9月份从 SQ…
今天晚上9点我们收到阿里云的告警通知: [阿里云监控]华东1(杭州)-云数据库RDS版<cnblogsdb> [instanceId=xxx] 于21:00 发生告警, 前往诊断 CPU使用率平均值(98.25>=80 ), 持续时间4分钟, rds_CpuUsage 收到通知后,我们立即登录阿里云 RDS 控制台进行主备库切换,等主备库完成切换后一看并没有切换过来,赶紧再次进行切换,第2次切换成功了,切换完成后 CPU 立刻降至正常水平,全站恢复正常. 这次故障发生时间是8月20日20…
最近云界发生了2件事,一件是大事,一件是小事,大事是阿里云与微软合作推出了开放应用模型 Open Application Model(OAM),小事是由于微软 SQL Server 在阿里云上水土不服(仅是我们的猜测),阿里云 SQL Server RDS 患上了间隙性芯脏病,该病容易在夜间酣睡的时候发病,目前唯一的急救药是“主备切换”. 对于大事,我们拍手叫好,云厂商绑定的问题正在被逐步解决.对于小事,我们提心吊胆,阿里云你可要保重龙体啊,你打个喷嚏,我们都抖三抖,你要是生个小病,我们怎么活.…
云计算的发展,推动了自动化运维.DevOps.AIOps 等趋势的兴起,在业务快速变化的今天,企业希望通过一套自动化运维的专家系统提高运维效率,为业务提供支撑. 传统的方式下,打造一套成熟的 DevOps 流程需要有大量的技术投入,如果采用商业软件还会有不菲的支出.无论是哪一项,都意味着大量的时间成本和财务成本支出.云计算正在改变这种情况. 为云而生的 ECS 自动化运维套件 2月3日,阿里云宣布推出 ECS(Elastic Compute Service,弹性计算服务)自动化运维套件.这是一套…
开宗明义,你不应该在阿里云上使用自建的MySQL or SQL Server数据库,对了,还有Oracle or PostgreSQL数据库. 云数据库 RDS(Relational Database Service)是一种稳定可靠.可弹性伸缩的在线数据库服务.基于飞天分布式系统和全SSD盘高性能存储,支持MySQL.SQL Server.PostgreSQL和PPAS(高度兼容Oracle)引擎,默认部署主备架构且提供了容灾.备份.恢复.监控.迁移等方面的全套解决方案. 当然,并不是指所有用户…
作为全球规模最大的网络技术盛会之一,GNTC全球网络技术大会是网络技术发展的重要风向标,包含战略规划.产业方向.技术趋势.应用创新等皆汇集于此.而作为云服务商代表,阿里云再度受邀以顶级钻石合作伙伴之名全面参与此次盛会.本次10/22-24 南京2019 GNTC大会上,阿里云网络资深技术专家 宗志刚先生发表了阿里云网络NFV平台的技术演进及能力,以下就为大家做深度解读. 网络功能从专用设备演进到虚拟化,部署在X86服务器上,极大提升了灵活性,阿里云网络不仅仅提供虚拟化的网元,还向云原生的架构演进…
非常非常抱歉,今晚 19:34 ~ 21:16 园子所使用的阿里云 RDS 数据库服务器突然出现 CPU 100% 问题,造成全站无法正常访问,由此您带来了很大的麻烦,请您谅解. 故障经过是这样的.19:34 这个时间点本来是一个访问低峰,数据库压力比访问高峰时低很多,但数据库服务器却异想天开.吃饱了撑着地让自己的 CPU 满负荷工作(到现在我们都没想通,难道是服务器晚饭吃多了想帮助消化?).开始我们以为是某个应用引起的,一个一个应用排查与重启, 但 CPU 不为所动,依然百分百.接着,我们一边…
今天下午访问高峰的时候,主站的Web服务器出现奇怪的问题,开始是2台8核8G的云服务器(ECS),后来又加了1台8核8G的云服务器,问题依旧. 而且3台服务器特地使用了不同的配置:1台是禁用了虚拟内存的临时磁盘云服务器,1台是启用了虚拟内存的临时磁盘云服务器,1台是禁用了虚拟内存的云盘云服务器.这样排除了磁盘IO与虚拟内存的原因. 问题的表现是这样的(以下监视截图来自Windows性能监控器Performance Monitor): 1. ASP.NET请求执行时间(Request Execut…
非常抱歉,今天下午14:20-14:55期间,由于同一个负载均衡中的2台服务器都出现CPU 100%问题,造成博客后台无法正常访问,由此给您带来了很大很大的麻烦,请您谅解. 博客后台是CPU消耗很低的应用,这2台服务器通常CPU占用在5%左右,之前从来没有出现CPU 100%的问题(所以连云监控都没添加CPU监控报警).这次问题很突然,我们发现问题后,远程连接不上服务器,只能重启,重启后立马恢复正常. 对于问题的具体原因,目前还没找到.我们正在进一步排查,也反馈给了阿里云,阿里云也在排查.…
在前端项目中经常遇到上传文件的需求,ant design 作为 react 的前端框架,提供的 upload 组件为上传文件提供了很大的方便,官方提供的各种形式的上传基本上可以覆盖大多数的场景,但是对于不同的服务器平台,可能实现方式会有所不同,尤其最近使用了阿里云作为服务器上传,就需要自定义上传行为才能满足需求,因此针对不同平台文件上传的异同和 upload 组件使用中遇到的问题做一个简单总结,希望可以对遇到类似问题的小伙伴有所帮助. 首先这里大致总结了几个不同平台服务器上传方式的异同:   …