云计算之路-阿里云上：节点 CPU 波动引发 docker swarm 集群故障

非常抱歉，今天 10:05-10:20 左右，我们用阿里云服务器搭建的 docker swarm 集群又出现故障，又是因为突然的节点 CPU 波动。

受这次故障影响的站点有闪存，博问，班级，园子，短信息，招聘，小组，网摘，openapi ，由此给您带来很大的麻烦，请您谅解。

故障前先是有一个 worker 节点出现 CPU 100% 报警：

云服务器ECS实例：swarm1-node5，CPU使用率于10:00发生告警，值为100%，持续时间1分钟

收到报警后，我们将这个节点下线并重启：

docker node update --availability drain swarm1-node5

然后，3 个 manager 节点一个接一个地 ssh 无法登录，之后整个集群宕机，跑在集群上的所有站点无法访问。

随后，我们通过阿里云控制台强制重启 manager 节点，但重启后集群无法恢复：

Error response from daemon: rpc error: code = Unknown desc = The swarm does not have a leader. It's possible that too few managers are online. Make sure more than half of the managers are online.

这时别无选择，我们立即执行 shell 脚本重建集群：

# ./rebuild-production-swarm.sh

Swarm initialized: current node (id6b69wj83ok2cf3tnsg7vm8l) is now a manager.

（注：这也是我们选择自建 docker swarm 集群没有选择阿里云容器服务的原因之一，可以快速地用脚本重建集群）

重建集群后，一切恢复正常。

附1：docker 版本是 Docker version 17.12.0-ce, build c97c6d6 。

附2：集群中各个节点的 CPU 监控图：

1）swarm1-node1（manager节点）

2）swarm1-node2（manager节点）

3）swarm1-node3（manager节点）

4）swarm1-node4（worker 节点）

5）swarm1-node5（worker 节点）

云计算之路-阿里云上：节点 CPU 波动引发 docker swarm 集群故障的更多相关文章

云计算之路-阿里云上-容器难容：自建docker swarm集群遭遇无法解决的问题
我们从今年6月开始在生产环境进行 docker 容器化部署,将已经迁移至 ASP.NET Core 的站点部署到 docker swarm 集群上.开始我们选用的阿里云容器服务,但是在使用过程中我们遭 ...
云计算之路-阿里云上-新发现：又一种与虚拟内存有关的CPU波动情况
在云上真是无奇不有,昨天偶然间发现在IIS的应用程序池回收设置中,仅仅设置了一下基于虚拟内存限制的回收,就引发了CPU有规律的波动.在这篇博文中,我们将向大家汇报一下云计算之路上的这个小发现. 在之前 ...
云计算之路-阿里云上：启用Windows虚拟内存引发的CPU 100%故障
今天上午11:35~11:40左右,由于负载均衡中的两台云服务器CPU占用突然飚至100%,造成网站5分钟左右不能正常访问,请大家带来了麻烦,请谅解! (上图中红色曲线表示CPU占用) 经过分析,我们 ...
云计算之路-阿里云上-容器难容：容器服务故障以及自建 docker swarm 集群故障
3月21日,由于使用阿里云服务器自建 docker swarm 集群的不稳定,我们将自建 docker swarm 集群上的所有应用切换阿里云容器服务 swarm 版(非swarm mode). 3月 ...
云计算之路-阿里云上：从ASP.NET线程角度对“黑色30秒”问题的全新分析
在这篇博文中,我们抛开对阿里云的怀疑,完全从ASP.NET的角度进行分析,看能不能找到针对问题现象的更合理的解释. “黑色30秒”问题现象的主要特征是:排队的请求(Requests Queued)突增 ...
云计算之路-阿里云上：Web服务器遭遇奇怪的“黑色30秒”问题
今天下午访问高峰的时候,主站的Web服务器出现奇怪的问题,开始是2台8核8G的云服务器(ECS),后来又加了1台8核8G的云服务器,问题依旧. 而且3台服务器特地使用了不同的配置:1台是禁用了虚拟内存 ...
云计算之路-阿里云上：禁用Windows虚拟内存引发的重启
昨天(2013年8月6日)下午,承载www.cnblogs.com主站的两台云服务器分别自动重启了1次,由于这两台云服务器使用了负载均衡(SLB),重启并未影响网站的正常访问. 与这次重启相关的Win ...
云计算之路-阿里云上：OCS问题的进展以及11:30-11:50遇到的问题
(上图是今天出问题期间Web服务器性能监控图,紫色表示的是Request Execution Time) 昨天我们发布了一篇博客分享了我们这两天遇到的OCS(开放缓存服务)问题,详见云计算之路-阿里云 ...
云计算之路-阿里云上：愚人节被阿里云OCS愚
今天是愚人节,而我们却被阿里云OCS愚,很多地方的缓存一直不过期,造成很多页面中的数据一直不更新.这篇博文将向您分享我们这两天遇到的OCS问题. 阿里云OCS(Open Cache Service)是 ...

随机推荐

Thomas Hobbes: Leviathan
Man is distinguished, not only by his reason, but by this singular passion from other animals, which ...
初识QT
前言:这是写给纯小白看的文章,大神可以自行绕道. QT的优势(摘自360百科): Qt支持下列操作系统: Microsoft Windows 95/98, Microsoft Windows NT, ...
Parallels Desktop 12
我微新solq123987654 备注:PD 科普:PD12有什么用,PD是让mac系统可以运行wind系统的软件,如果你不习惯mac os 或工作需要那PD绝对是个好软件正版要七八百授权,只要十五就 ...
跟我一起，利用bitcms内容管理系统从0到1学习小程序开发：一、IIS下SSL环境搭建
缘起 1.从事互联网十来年了,一直想把自己的从事开发过程遇到的问题给写出来,分享给大家.可是可是这只是个种想法,想想之后就放下了,写出来的类文章是少之又少.古人说无志之人常立志,有志之人立长志.今天, ...
parse_str 与 http_build_query的使用
1 http_build_query() 使用生成 URL-encode 之后的请求字符串 [建议在使用前,使用array_filter($query) 进行处理] 例子 1. http_build ...
[SDOI2009]E&D
题目描述小E 与小W 进行一项名为“E&D”游戏. 游戏的规则如下: 桌子上有2n 堆石子,编号为1..2n.其中,为了方便起见,我们将第2k-1 堆与第2k 堆 (1 ≤ k ≤ n)视为 ...
fiddler基本介绍
1.Fiddler如何捕获HTTPS会话点击Tools->Teleik Fiddler Option,勾选如下选项点击"Yes" 后,就设置好了 2.fiddler的基本 ...
ssh的免密登陆
想必大家都有使用ssh登陆的过程了,那么,怎么设置ssh免密登陆呢?下面有一些我的总结: 环境:服务器主.从主服务器:192.168.1.1 从服务器:192.168.1.2 实现主服务器ssh登录 ...
docker with flannel
** 原创文章,请勿转载 ** docker的单host,多container环境下,是使用host的docker0网桥进行通信的.如果跨host, container之间要通信怎么办呢?答案是fla ...
socke编程
一客户端和服务端架构 1 硬件c/s架构 2软甲c/s架构 3 socket与c/s的关系:socket是为了开发c/s的二 osi七层三张图片http://www.cnblogs.com/wa ...

云计算之路-阿里云上：节点 CPU 波动引发 docker swarm 集群故障

云计算之路-阿里云上：节点 CPU 波动引发 docker swarm 集群故障的更多相关文章

随机推荐

热门专题