非常非常抱歉,今晚 19:34 ~ 21:16 园子所使用的阿里云 RDS 数据库服务器突然出现 CPU 100% 问题,造成全站无法正常访问,由此您带来了很大的麻烦,请您谅解. 故障经过是这样的.19:34 这个时间点本来是一个访问低峰,数据库压力比访问高峰时低很多,但数据库服务器却异想天开.吃饱了撑着地让自己的 CPU 满负荷工作(到现在我们都没想通,难道是服务器晚饭吃多了想帮助消化?).开始我们以为是某个应用引起的,一个一个应用排查与重启, 但 CPU 不为所动,依然百分百.接着,我们一边…
今天上午11:10,我们又中"奖"了,我们使用的阿里云 RDS 实例(SQL Server 2016 标准版,16核32G)突发出现 CPU 100%,引发全站故障,直到 12:15 才完全恢复,由此给您带来很大的麻烦,请您谅解. 这是我们今年的第3次中"奖",前2次分别发生在 2020-06-24 3:20~8:30 (详见故障公告)与 2020-08-20 20:55~21:14(详见故障公告). 相比前2次,这次中了一个大"奖",发生在访问…
今天 11:12-12:03 期间,园子使用的阿里云 RDS 实例(SQL Server2016 标准版,16核CPU)出现 CPU 100% 问题,引发全站故障,由此给您带来麻烦,请您谅解. 发现故障后,我们进行了 RDS 的主备切换,第1次切换失败,再次进行主备切换,再次失败,改为重启实例后才恢复正常. 上次出现同样问题是在2021年5月1日,详见 [故障公告]访问高峰数据库服务器 CPU 100% 引发全站故障…
非常抱歉,今天 8:48 开始,我们使用的阿里云 RDS SQL Server 数据库实例突然出现 CPU 100%  问题,引发全站故障,由此给您带来麻烦,请您谅解. 发现故障后立即进行主备切换,和往常一样,第1次主备切换失败,第2次主备切换完成后恢复正常. 上次同样故障发生在2020年11月3日,详见 [故障公告]访问高峰数据库服务器 CPU 100% 引发全站故障 阿里云 RDS CPU 100%  问题,不知为何,不知何时,但每年总要发生几次,至今仍是未解之谜.…
最近遇到了奇怪的阿里云 RDS 数据库突发 CPU 近 100% 问题,遇到了3次. 第一次是10月12日(周六)凌晨 3:24 负载极低的时候开始出现,早上发现后进行了主备切换,恢复了正常. 第二次也是出现在10月12日,就在主备切换后不久,发现后又进行了主备切换,切换回之前出问题的服务器,恢复了正常. 第三次是昨天(10月18日)23:15 开始出现,今天早上(也是周六)发现后,再次通过主备切换恢复了正常. 阿里云 RDS 型号用的是 SQL Server 2016 标准版,是9月份从 SQ…
悄悄地它又突然来了 -- 数据库服务器 CPU 100% 问题,上次光临时间是 3-30 8:48,这次是 4-28 9:41. 这次我们做出了快速反应,发现后立即进行主备切换,这次一次切换成功,CPU 很快恢复正常. 但是,这次来的"真"是时候(访问高峰),虽然数据库 CPU 恢复正常,但高并发下的博客站点在数据库恢复后来不及建缓存,大量请求503或者访问缓慢,估计今天整个上午都扛不住. 幸运的是,我们估计错了,10:15左竟然抗住了,博客站点开始恢复正常. 但是,就在我们准备发布故…
今天晚上9点我们收到阿里云的告警通知: [阿里云监控]华东1(杭州)-云数据库RDS版<cnblogsdb> [instanceId=xxx] 于21:00 发生告警, 前往诊断 CPU使用率平均值(98.25>=80 ), 持续时间4分钟, rds_CpuUsage 收到通知后,我们立即登录阿里云 RDS 控制台进行主备库切换,等主备库完成切换后一看并没有切换过来,赶紧再次进行切换,第2次切换成功了,切换完成后 CPU 立刻降至正常水平,全站恢复正常. 这次故障发生时间是8月20日20…
非常抱歉,昨天的服务器CPU 100%问题是达到 memcached 的连接数限制引起的,不是阿里云服务器的问题. 之前我们用的是阿里云“云数据库 memcached 版”,上个周末我们换成了自己搭建——基于阿里云“内存网络增强型”服务器用 docker 跑 memcached . docker run -d --net=host --restart unless-stopped memcached -m 15360 但我们在部署 memcached 时没有设置 conn-limit 参数(默认…
最近云界发生了2件事,一件是大事,一件是小事,大事是阿里云与微软合作推出了开放应用模型 Open Application Model(OAM),小事是由于微软 SQL Server 在阿里云上水土不服(仅是我们的猜测),阿里云 SQL Server RDS 患上了间隙性芯脏病,该病容易在夜间酣睡的时候发病,目前唯一的急救药是“主备切换”. 对于大事,我们拍手叫好,云厂商绑定的问题正在被逐步解决.对于小事,我们提心吊胆,阿里云你可要保重龙体啊,你打个喷嚏,我们都抖三抖,你要是生个小病,我们怎么活.…
今天五一劳动节的一大早 5:50-6:30 期间,我们使用的阿里云 RDS SQL Server 数据库实例再次出现 CPU 100% 问题,引发全站故障,由此给您带来麻烦,请您谅解. 我们发现故障后立即进行主备切换,与上次故障不同的是,这次主备切换没有成功,再次切换,依然没有成功,后来尝试重启实例,重启后恢复正常. 上次故障发生于4月28日上午,两次故障相隔如此之近之前很少遇到,我们最近会密切关注数据库的运行状况.…
1. 改造原因 (1) 由于历史原因, 本应该是同一个库的表分布在两个数据库中,需要对这两个库进行合并. (2) 已有的数据库性能无法满足业务的增长需要, 查询卡,慢问题突出. (3) 当前自建Mysql数据库在配置优化.性能监控.负载均衡上缺乏成熟的方案和经验, 故借托管到阿里云RDS,有利于数据库的数据安全和服务器稳定. 2. RDS数据库现状分析 (1)RDS基本配置 (2)RDS使用情况 eunke-db007:  当前只用于做RDS性能测试, 不做生产使用, 故可以释放. eunke-…
一.背景: 由于阿里云RDS生产库每天都需要备份且拷贝到自建读库,而如果使用阿里云的自动拷贝到只读实例, 费用太高, 故采用自编写同步脚本方法实现. 二.前提: 1). 已开通阿里云RDS, 且开启定期备份功能.(备份功能生成备份文件供下载) 2). 已在备份的目标服务器上安装mysql数据库. 3). 备份目标服务器已安装数据恢复工具Percona XtraBackup,您可以从Percona XtraBackup官网下载安装. MySQL 5.6及之前的版本需要安装 Percona Xtra…
在阿里云购买ECS服务器和RDS数据库时,要注意网络类型要一致,最好都是VPC,否则ECS不能在内网访问RDS,只能从外网访问:在RDS控制台左侧,数据库安全性的IP白名单中添加ECS外网IP:在数据库连接中,开启外网连接地址. RDS不提供sa/root账号功能 要导入数据备份(bak),需要先把bak文件上传到oss,得到文件的url然后在RDS控制台左侧,数据库管理中,对应库(没有就新建)右侧[从oss上的备份文件迁入] 执行数据库清理sql 因为没有systemadmin权限,所以只能在…
由于某几个业务表数据量太大,数据由业务写,数据部门读. 写压力不大,读却很容易导致长时间等待问题(读由单独系统进行读),导致连接被占用,从而容易并发稍稍增长导致全库卡死! 于是,就拆库呗. 业务系统拆分就不要做了(微服务化),没那工夫. 直接原系统拆两个数据源出来,对某几个高压力表的写就单独用这个数据源,从而减轻压力. 所以,分库工作就变为了两个步骤: 1. 两个数据源读写业务: 2. 将新数据库写动作同步回读库: 再由于方便性,数据库也是使用阿里的rds数据库,一个变为两个! 代码上做两个数据…
如果是centos系统,默认会开启selinux 一定需关闭selinux 解决方法:关闭它,打开/etc/selinux/config,把SELINUX=enforcing改为SELINUX=disabled后存盘退出重启机器试试. 将服务器里面的mysql版本升级到最新版本 5.6 mysql5.6 安装包下载地址:http://a1608626143.oss-cn-hangzhou.aliyuncs.com/mysql/mysql5.6/mysql5.6.zip 下载后上传到服务器目录/h…
今天上午 9:40 - 11:06 左右,由于阿里云“华东1地域部分负载均衡https访问异常”,造成我们的部分站点(尤其是博客后台)无法正常访问,给您带来了很大的麻烦,请您谅解. 现已恢复正常,如果您还不能正常访问,麻烦您向我们反馈. 阿里云官方故障公告: [阿里云] [负载均衡] [故障通告] 故障简述 : 监控发现于09:40左右,华东1地域部分负载均衡出现https访问不稳定. 故障原因 : 华东1地域负载均衡网络波动导致. 有任何问题,可随时通过工单或服务电话95187联系反馈. [故…
一.安装mysql和xtrabackup  (1)安装mysql 因为RDS是5.6版本,所以我们本地的mysql数据库要与RDS版本对应. rpm -ivh http://repo.mysql.com/mysql-community-release-el6-5.noarch.rpm && yum -y install mysql-server mysql (2)安装xtrabackup 看我另一篇文章:https://www.cnblogs.com/weiyiming007/p/1028…
最近搭建自己的博客网站的时候使用了阿里云的云服务器ESC,搭建了一个mysql数据库,在windows下使用navicat连接mysql的时候,总是连接不上,出现了1130的问题等等错误信息. 下面将自己遇到的一些问题解决方法总结如下: 首先设置mysql的配置信息: sudo vim /etc/mysql/mysql.conf.d/mysqld.cnf 在这个文件中注释掉这一行:在前面添加一个 # 号 # bind-address          = 127.0.0.1 然后在服务器上登录上…
阿里资源到期未续费,数据保存期限: ECS实例的保存期是15天. Redis实例的保存期是7天. RDS实例的保存期也是7天. 过期当天会收到一条短信: [阿里云]尊敬的用户:您的RDS实例(实例ID:pgm-****************),已于2021-05-11 00:00:00正式到期,由于2021-05-18之前没有续费.实例数据已被清除,不可恢复. 吐槽一下阿里 我想说的是,删除前几天不通知我,删除了再通知,幸灾乐祸是吧? 设置了消息通知 没收到消息,人家是这样说的 所以.....…
参考这里:https://help.aliyun.com/knowledge_detail/41817.html 第4.2步要多注释掉一些(应该根据实际报错来注释): [mysqld] innodb_checksum_algorithm=innodb #innodb_log_checksum_algorithm=innodb innodb_data_file_path=ibdata1:200M:autoextend innodb_log_files_in_group= innodb_log_fi…
抱歉,今天上午 10:48 ~ 10:33 期间,我们所使用的数据库服务(阿里云 RDS 实例 SQL Server 2016 标准版)又出现了 CPU 近 100% 问题,由此给您带来麻烦,请您谅解. 这次刚开始出现 CPU 近 100% 问题时,没有造成大的影响,后来有段时间 CPU 降了下来,由于是访问高峰,我们没有敢立即进行主备切换,但 11:20 之后出现的 CPU 近 100% 问题对网站的正常访问影响越大越大,11:33 左右我们进行了主备切换后恢复了正常. 这次数据库 CPU 近…
阿里云RDS数据库最大支持2T,目前已经占用了90%,如果进行分库或者迁移比较麻烦,思路是找出占用空间过大的日志或不重要的文件进行删除操作 查询所有数据库占用磁盘空间大小的SQL语句: show binary logs;  show variables like '%log%';  set global expire_logs_days = 10; select TABLE_SCHEMA, concat(truncate(sum(data_length)/1024/1024,2),' MB')…
简介 Zabbix 监控阿里云RDS数据库.主要通过阿里云提供的API来进行监控. 需要在阿里云获取“用户AccessKey”指定ID,进行RDS监控. 环境 服务:Zabbix 3.0.28.zabbix-agent  2.4.7 系统:Linux Centos7/Redhat7 依赖:python 2.7.git 2.7.4 部署 zabbix-agent 端操作 1.通过pip2.7安装阿里云RDS监控模块 pip2.7 install aliyun-python-sdk-core==2.…
非常抱歉,今天早上 6:37~8:15 期间,由于获取网站首页博文列表的 SQL 语句出现突发的查询超时问题,造成访问网站首页时出现 500 错误,由此给您带来麻烦,请您谅解. 故障的情况是这样的. 故障期间日志中记录了大量下面的错误. 2020-02-03 06:37:24.635 [Error] An unhandled exception has occurred while executing the request. / Microsoft.AspNetCore.Diagnostics…
非常抱歉,今天凌晨 3:20~8:30 左右,我们使用的阿里云 RDS 实例 SQL Server 2016 标准版突然出现 CPU 100% 故障,造成全站无法正常访问,由此给您带来巨大的麻烦,请您谅解. 问题很奇怪,故障期间是数据库服务器负载极低的时间段.从阿里云 RDS 控制台 CloudDBA 看,故障期间下面的一个 SQL 语句大量执行,并且极其消耗 CPU . 开始我们以为是这个 SQL 语句引发的故障,但排查下来这个 SQL 语句本身并没有性能问题,而且已经使用了至少6个月. 最终…
昨天晚上,我们使用的阿里云 RDS SQL Server 2008 R2 实例突然出现持续 CPU 100% 问题,后来我们通过重启实例恢复了正常(详见故障公告).但是在恢复正常后发现了新问题,这台 RDS 实例 IOPS 不够用,必须要进行升级,而且当时过了 0 点也是升级的好时间,再加上我们对升级到更高版本的 SQL Server 垂涎已久 —— 因为最新的 EF Core 3.0 不支持生成 SQL Server 2008 的分页 SQL (UseRowNumberForPaging),只…
非常抱歉,这次故障给您带来麻烦了,请您谅解. 今天早上 10:54 左右,我们所使用的数据库服务(阿里云 RDS 实例 SQL Server 2016 标准版)CPU 突然飙升至 90% 以上,应用日志中出现大量数据库查询超时的错误. Microsoft.Data.SqlClient.SqlException (0x80131904): Execution Timeout Expired. The timeout period elapsed prior to completion of the…
阿里云RDS与ECS服务器数据库做主从 [精] 里云RDS(数据库)基于飞天大规模分布式计算和存储能力,提供超高性价比的单机版实例,同时利用读写分离横向扩展读能力,满足网站类的业务需求.提供稳定.高性能.安全可靠的数据库服务,针对电商秒杀场景进行专项优化,解决热点数据的高并发更新性能瓶颈,100倍性能提升.通过高安全模式,内置SQL注入检测模块,实时拦截风险SQL,保护数据安全.数据强一致性保证,满足金融级可靠性要求,搭建事前.事中.事后三层数据安全防护网,提供双机热备.同城.异地三中心部署架构…
非常非常抱歉,今天上午的故障又一次给大家带来麻烦了,再次恳请大家的谅解. 在昨天升级阿里云 RDS SQL Server 实例的配置后(详见昨天的博文),万万没有想到,今天上午更高配置的阿里云 RDS 实例依然出现了 CPU 居高不下的问题. 在数据库 CPU 高的情况下,有时对访问速度影响不大,有时巨慢无边,在今天上午的故障期间,我们通过2次主备切换才恢复了正常. 下午,我们我们调整了服务器的部署,用了更多服务器进行混合部署(docker-compose与docker swarm),情况有了明…
非常非常抱歉!2016年3月7日15:44-16:39,由于阿里云RDS(云数据库)故障,造成全站不能正常访问,给您带来了很大很大的麻烦,恳请您的谅解! 故障是在15:44开始出现的,应用日志中出现大量这样的错误: System.Data.SqlClient.SqlException (0x80131904): Logon failed for login '...' due to trigger execution. 当前命令发生了严重错误.应放弃任何可能产生的结果. 在 System.Dat…