一、Docker Swarm 概念

1、集群

从主机的层面来看,Docker Swarm 管理的是 Docker Host 集群。所以先来讨论一个重要的概念 - 集群化(Clustering)。

服务器集群由一组网络上相互连接的服务器组成,它们一起协同工作。一个集群和一堆服务器最显著的区别在于:

集群能够像 单个 系统那样工作,同时提供高可用、负载均衡和并行处理。

如果我们部署应用和服务时选择的是多个独立的服务器而非集群,资源的整体利用率则很难达到最优,因为我们无法提前知道如何分布这些应用才能达到资源利用的最大化。而且,应用使用资源的趋势是波动的,早上某些服务可能需要大量的内存,而下午使用量就降下来了。提前指定应用应该运行在哪个服务器上会丧失业务的弹性,当某个服务器宕机了,我们不得不手工将受影响的应用迁移到其他服务器上。

实现集群化后我们的思维方式就必须改变了:不再考虑一个一个的服务器,而是将集群看做是一个整体。

部署应用时,我们只考虑需要多少内存和 CPU,而不是考虑会使用那台服务器的内存和 CPU。我们不应该关心应用会被部署在哪里,我们关心的是运行这个应用需要哪些资源,然后将它部署到集群,集群管理程序(比如 Docker Swarm)会搞定这些细节。

集群整体容量的调整是通过往集群中添加和删除主机节点实现的。但不管做怎样的操作,集群始终还是一个整体。

2、Docker Swarm

Docker v1.12 是一个非常重要的版本,Docker 重新实现了集群的编排方式。在此之前,提供集群功能的 Docker Swarm 是一个单独的软件,而且依赖外部数据库(比如 Consul、etcd 或 Zookeeper)。

从 v1.12 开始,Docker Swarm 的功能已经完全与 Docker Engine 集成,要管理集群,只需要启动 Swarm Mode。安装好 Docker,Swarm 就已经在那里了,服务发现也在那里了(不需要安装 Consul 等外部数据库)。

3、重要概念

swarm

swarm 是运行 Docker Engine 的多个主机组成的集群。

从 v1.12 开始,集群管理和编排功能已经集成进 Docker Engine。当 Docker Engine 初始化了一个 swarm 或者加入到一个存在的 swarm 时,它就启动了 swarm mode。

没启动 swarm mode 时,Docker 执行的是容器命令;运行 swarm mode 后,Docker 增加了编排 service 的能力。

Docker 允许在同一个 Docker 主机上既运行 swarm service,又运行单独的容器。

node

swarm 中的每个 Docker Engine 都是一个 node,有两种类型的 node:manager 和 worker。

为了向 swarm 中部署应用,我们需要在 manager node 上执行部署命令,manager node 会将部署任务拆解并分配给一个或多个 worker node 完成部署。

manager node 负责执行编排和集群管理工作,保持并维护 swarm 处于期望的状态。swarm 中如果有多个 manager node,它们会自动协商并选举出一个 leader 执行编排任务。

woker node 接受并执行由 manager node 派发的任务。默认配置下 manager node 同时也是一个 worker node,不过可以将其配置成 manager-only node,让其专职负责编排和集群管理工作。

work node 会定期向 manager node 报告自己的状态和它正在执行的任务的状态,这样 manager 就可以维护整个集群的状态。

service

service 定义了 worker node 上要执行的任务。swarm 的主要编排任务就是保证 service 处于期望的状态下。

举一个 service 的例子:在 swarm 中启动一个 http 服务,使用的镜像是 httpd:latest,副本数为 3。

manager node 负责创建这个 service,经过分析知道需要启动 3 个 httpd 容器,根据当前各 worker node 的状态将运行容器的任务分配下去,比如 worker1 上运行两个容器,worker2 上运行一个容器。

运行了一段时间,worker2 突然宕机了,manager 监控到这个故障,于是立即在 worker3 上启动了一个新的 httpd 容器。

这样就保证了 service 处于期望的三个副本状态。

二、创建 Swarm 集群

1、环境准备

所有节点的 Docker 版本均不低于 v1.12,我们是最新版的 v18.04,我们的实验环境 node 的操作系统为 Ubuntu 16.04,当然其他 Linux 也是可以的。

swarm-manager:192.168.1.200

swarm-worker1:192.168.1.201

swarm-worker1:192.168.1.203

2、创建 swarm

在 swarm-manager 上执行如下命令创建 swarm,使用命令docker swarm init --advertise-addr 192.168.1.200

[root@master ~]# docker swarm init --advertise-addr 192.168.1.200
Swarm initialized: current node (udbgr7vn9x5gntpqbj8m82x7l) is now a manager. To add a worker to this swarm, run the following command: docker swarm join \
--token SWMTKN-1-22q5qlm1mxbilt504ghcf0ug9gsn9a40szbhiohyh9kqiayyku-a8crg1xr8vab1vwrh7kmsy3kw \
192.168.1.200:2377 To add a manager to this swarm, run 'docker swarm join-token manager' and follow the instructions.

从结果输出我们可以看出 manager 已经初始化完成,swarm-manager 成为 manager node,可以看到添加 worker node 和 manager node 的执行指令。

--advertise-addr:指定与其他 node 通信的地址。

3、添加 node

执行 docker node ls 查看当前 swarm 的 node,目前只有一个 manager。

[root@master ~]# docker node ls
ID HOSTNAME STATUS AVAILABILITY MANAGER STATUS ENGINE VERSION
udbgr7vn9x5gntpqbj8m82x7l * master Ready Active Leader 18.04.0-ce

如果当时没有记录下 docker swarm init 提示的添加 worker 的完整命令,可以通过docker swarm join-token worker查看。

复制前面的 docker swarm join 命令,在 swarm-worker1 和 swarm-worker2 上执行,将它们添加到 swarm 中。

但是出现如下问题:

这是因为我们在之前配置多主机网络的时候,添加的配置,我们现在需要取消掉这两个参数。

--cluster-advertise:是用来指定集群与其他node的通信地址的。

--cluster-store:是我之前做网络实验的时候配置了etcd集群的通信地址用的。

去掉之后,重启docker,host1 和 host2 即可添加了。

root@host2:~# docker swarm join \
> --token SWMTKN-1-22q5qlm1mxbilt504ghcf0ug9gsn9a40szbhiohyh9kqiayyku-a8crg1xr8vab1vwrh7kmsy3kw \
> 192.168.1.200:2377
This node joined a swarm as a worker.

4、查看添加结果

docker node ls 可以看到两个 worker node 已经添加进来了。

[root@master ~]# docker node ls
ID HOSTNAME STATUS AVAILABILITY MANAGER STATUS ENGINE VERSION
c1scfpzw4s9hx1ykiggzs5qym host1 Ready Active 18.04.0-ce
6cwk70xzafhfwn1x3replywn7 host2 Ready Active 18.04.0-ce
udbgr7vn9x5gntpqbj8m82x7l * master Ready Active Leader 18.04.0-ce

至此,三节点的 swarm 集群就已经搭建好了,操作还是相当简单的。

三、部署 Docker Service

1、创建 service

我们创建好了 Swarm 集群, 现在部署一个运行 httpd 镜像的 service,执行如下命令:

[root@master ~]# docker service create --name web_server httpd
gjy6az3urqsbktichzoz6vpdh
overall progress: 1 out of 1 tasks
1/1: running [==================================================>]
verify: Service converged

2、查看

通过 docker service ls 可以查看当前 swarm 中的 service。

[root@master ~]# docker service ls
ID NAME MODE REPLICAS IMAGE PORTS
gjy6az3urqsb web_server replicated 1/1 httpd:latest

REPLICAS 显示当前副本信息,1/1 的意思是 web_server 这个 service 期望的容器副本数量为 1,目前已经启动的副本数量为 1。也就是当前 service 已经部署完成。

命令 docker service ps 可以查看 service 每个副本的状态。

[root@master ~]# docker service ps gjy6az3urqsb
ID NAME IMAGE NODE DESIRED STATE CURRENT STATE ERROR PORTS
b86hi4ivf855 web_server.1 httpd:latest master Running Running 3 minutes ago

我们可以看到 service 被分配到了 master 上面。

3、service scale up

前面部署了只有一个副本的 Service,不过对于 web 服务,我们通常会运行多个实例。这样可以负载均衡,同时也能提供高可用。

swarm 要实现这个目标非常简单,增加 service 的副本数就可以了。在 swarm-manager 上执行如下命令:

[root@master ~]# docker service scale web_server=5
web_server scaled to 5
overall progress: 5 out of 5 tasks
1/5: running [==================================================>]
2/5: running [==================================================>]
3/5: running [==================================================>]
4/5: running [==================================================>]
5/5: running [==================================================>]
verify: Service converged

副本数增加到 5,通过 docker service ls docker service ps web_server查看副本的详细信息。

我们可以看到 manager 上面运行了两个副本,默认配置下 manager node 也是 worker node,所以 swarm-manager 上也运行了副本。如果不希望在 manager 上运行 service,可以执行如下命令:

docker node update --availability drain master

我们可以看到 master 上面的副本已经转移了。

4、service scale down

前面我们的场景是 scale up,我们还可以 scale down,减少副本数,运行下面的命令:

[root@master ~]# docker service scale web_server=3
web_server scaled to 3
overall progress: 3 out of 3 tasks
1/3: running [==================================================>]
2/3:
3/3: running [==================================================>]
verify: Service converged

我们可以看到目前 host1 上面运行了一个副本,host2 上面运行了两个副本。

5、故障转移

故障是在所难免的,容器可能崩溃,Docker Host 可能宕机,不过幸运的是,Swarm 已经内置了 failover 策略。

创建 service 的时候,我们没有告诉 swarm 发生故障时该如何处理,只是说明了我们期望的状态(比如运行3个副本),swarm 会尽最大的努力达成这个期望状态,无论发生什么状况。

以前面部署的 Service 为例,当前 3 个副本分布在 host1 和 host2 上,现在我们测试 swarm 的 failover 特性,关闭 host1。

Swarm 会将 host1 上的副本调度到其他可用节点。我们可以通过 docker service ps web_server 查看。

可以看到,副本 已经从 host1 迁移到了host2,之前运行在故障节点 host1 上的副本状态被标记为 Shutdown。

四、访问 Service

前面我们已经学习了如何部署 service,也验证了 swarm 的 failover 特性。不过截止到现在,有一个重要问题还没有涉及:如何访问 service?

为了便于分析,我们重新部署 web_server,首先删除 web_server。

[root@master ~]# docker service rm web_server
web_server

重新创建 service,这次直接用 --replicas=2 创建两个副本。

[root@master ~]# docker service create --name web_server --replicas=2 httpd
r9q5qbwz78j9yfzlkam9cjo2f
overall progress: 2 out of 2 tasks
1/2: running
2/2: running
verify: Service converged

我们可以看到 host1 和 host2 上面个运行一个副本。

[root@master ~]# docker service ps web_server
ID NAME IMAGE NODE DESIRED STATE CURRENT STATE ERROR PORTS
xpnhww0d1kdj web_server.1 httpd:latest host2 Running Running about a minute ago
wq7ltc215laf web_server.2 httpd:latest host1 Running Running about a minute ago

要访问 http 服务,最起码网络得通吧,服务的 IP 我们得知道吧,但这些信息目前我们都不清楚。不过至少我们知道每个副本都是一个运行的容器,要不先看看容器的网络配置吧。

root@host1:~# docker ps
CONTAINER ID IMAGE COMMAND CREATED STATUS PORTS NAMES
7694a2dc91e5 httpd:latest "httpd-foreground" 2 minutes ago Up 2 minutes 80/tcp web_server.2.wq7ltc215lafm5s8b4hcnwn7r

在 host11 上运行了一个容器,是 web_server 的一个副本,容器监听了 80 端口,但并没有映射到 Docker Host,所以只能通过容器的 IP 访问。查看一下容器的 IP。

root@host1:~# docker exec 7694a2dc91e5 ip r
default via 172.17.0.1 dev eth0
172.17.0.0/16 dev eth0 proto kernel scope link src 172.17.0.2

容器 IP 为 172.17.0.2,实际上连接的是 Docker 默认 bridge 网络。

我们可以直接在 swarm-worker1 上访问容器的 http 服务。

root@host1:~# curl 172.17.0.2
<html><body><h1>It works!</h1></body></html>

但这样的访问也仅仅是容器层面的访问,服务并没有暴露给外部网络,只能在 Docker 主机上访问。换句话说,当前配置下,我们无法访问 service web_server。

1、从外部访问 service

要将 service 暴露到外部,方法其实很简单,执行下面的命令:

[root@master ~]# docker service update --publish-add 8080:80 web_server
web_server
overall progress: 2 out of 2 tasks
1/2: running
2/2: running
verify: Service converged

如果是新建 service,可以直接用使用 --publish 参数,比如:

docker service create --name web_server --publish 8080:80 --replicas=2 httpd

容器在 80 端口上监听 http 请求,--publish-add 8080:80 将容器的 80 映射到主机的 8080 端口,这样外部网络就能访问到 service 了。

[root@master ~]# curl 192.168.1.200:8080
<html><body><h1>It works!</h1></body></html>
[root@master ~]# curl 192.168.1.201:8080
<html><body><h1>It works!</h1></body></html>
[root@master ~]# curl 192.168.1.203:8080
<html><body><h1>It works!</h1></body></html>

大家可能会奇怪,为什么 curl 集群中任何一个节点的 8080 端口,都能够访问到 web_server?

这实际上就是使用 swarm 的好处了,这个功能叫做 routing mesh。

2、ingress 网络

当我们应用 --publish-add 8080:80 时,swarm 会重新配置 service,我们看看容器都发生了哪些重要变化。

[root@master ~]# docker service ps web_server
ID NAME IMAGE NODE DESIRED STATE CURRENT STATE ERROR PORTS
uuov3cjaa39v web_server.1 httpd:latest host2 Running Running 17 hours ago
xpnhww0d1kdj \_ web_server.1 httpd:latest host2 Shutdown Shutdown 17 hours ago
fhcm2ur40kjp web_server.2 httpd:latest host1 Running Running 17 hours ago
wq7ltc215laf \_ web_server.2 httpd:latest host1 Shutdown Shutdown 17 hours ago

之前的所有副本都被 Shutdown,然后启动了新的副本。我们查看一下新副本的容器网络配置。

容器的网络与 --publish-add 之前已经大不一样了,现在有两块网卡,每块网卡连接不同的 Docker 网络。

eth0 连接的是一个 overlay 类型的网络,名字为 ingress,其作用是让运行在不同主机上的容器可以相互通信。

eth1 连接的是一个 bridge 类型的网络,名字为 docker_gwbridge,其作用是让容器能够访问到外网。

ingress 网络是 swarm 创建时 Docker 为自动我们创建的,swarm 中的每个 node 都能使用 ingress。

通过 overlay 网络,主机与容器、容器与容器之间可以相互访问;同时,routing mesh 将外部请求路由到不同主机的容器,从而实现了外部网络对 service 的访问。

Docker Swarm 集群(十七)的更多相关文章

  1. 通过docker-machine和etcd部署docker swarm集群

    本片文章介绍一下 使用docker-machine 搭建docker swarm 集群:docker swarm是docker 官方搭建的容器集群编排工具:容器编排,就是可以使你像使用一太机器一样来使 ...

  2. Centos7的安装、Docker1.12.3的安装,以及Docker Swarm集群的简单实例

    目录 [TOC] 1.环境准备 ​ 本文中的案例会有四台机器,他们的Host和IP地址如下 c1 -> 10.0.0.31 c2 -> 10.0.0.32 c3 -> 10.0.0. ...

  3. 从零开始搭建Docker Swarm集群

    从零开始搭建Docker Swarm集群 检查节点Docker配置 1. 打开Docker配置文件(示例是centos 7)vim /etc/sysconfig/docker2. 添加-H tcp:/ ...

  4. docker + swarm 集群

    docker + swarm 集群 导读 Swarm是Docker公司在2014年12月初新发布的容器管理工具.和Swarm一起发布的Docker管理工具还有Machine以及Compose.Swar ...

  5. Docker Swarm集群

    Docker Swarm集群 IP 10.6.17.11  管理节点 IP 10.6.17.12   节点A IP 10.6.17.13   节点B IP 10.6.17.14   节点C 安装 Sw ...

  6. 故障公告:docker swarm集群“群龙无首”引发部分站点无法访问

    今天傍晚 17:38-18:18 左右,由于 docker swarm 集群出现 "The swarm does not have a leader" 问题,造成博问.闪存.园子. ...

  7. 云计算之路-阿里云上-容器难容:自建docker swarm集群遭遇无法解决的问题

    我们从今年6月开始在生产环境进行 docker 容器化部署,将已经迁移至 ASP.NET Core 的站点部署到 docker swarm 集群上.开始我们选用的阿里云容器服务,但是在使用过程中我们遭 ...

  8. 云计算之路-阿里云上:docker swarm 集群故障与异常

    在上次遭遇 docker swarm 集群故障后,我们将 docker 由 17.10.0-ce 升级为最新稳定版 docker 17.12.0-ce . 前天晚上22:00之后集群中的2个节点突然出 ...

  9. 云计算之路-阿里云上:节点 CPU 波动引发 docker swarm 集群故障

    非常抱歉,今天 10:05-10:20 左右,我们用阿里云服务器搭建的 docker swarm 集群又出现故障,又是因为突然的节点 CPU 波动. 受这次故障影响的站点有 闪存,博问,班级,园子,短 ...

随机推荐

  1. LOJ2823 三个朋友 ——查询字串的哈希值

    概念 查询字串的hash值 我们所说的哈希通常都是进制哈希,因为它具有一些很方便的性质,例如,具有和前缀和类似的性质. 假设一个字符串的前缀哈希值记为 $h[i]$,进制为 $base$,那么显然 $ ...

  2. django 渲染模板与 vue 的 {{ }} 冲突解决方法

    如果不可避免的在同一个页面里既有 django 渲染又有 vue 渲染的部分,可有 2 种方式解决 方法一: 采用 vue 的 delimiters  分隔符. new Vue({ delimiter ...

  3. Spring动态代理及Spring Bean的生命周期

    数组添加值 public class DiTest { /** * 数组 */ private String [] arrays; /** * List:集合 */ private List<I ...

  4. SQLServer常见查询问题

     http://bbs.csdn.net/topics/340078327 1.生成若干行记录 --自然数表1-1M CREATE TABLE Nums(n int NOT NULL PRIMAR ...

  5. [bzoj] Network

    http://www.lydsy.com/JudgeOnline/problem.php?id=3732 /* Kruskal 最小生成树 树链剖分 最大值查询 注意:可能会有几块不联通的图 */ # ...

  6. codevs 4244 平衡树练习

    二次联通门 : codevs 4244 平衡树练习 Splay实测指针占用空间大约是数组的3倍, 且时间上也慢了差不多1s 数组版评测记录如下 指针版评测记录如下     以上数据仅限这一个题, 对于 ...

  7. wepy框架入门

    安装 wepy 命令行工具. npm install wepy-cli -g 在开发目录生成开发DEMO. wepy new myproject 开发实时编译. wepy build --watch ...

  8. 原生table表格的使用

    近期公司让我修改一些之前的table标签写的页面,感觉对table相关的标签不是太熟悉,于是专门整理一下: 1.如果给td标签设置百分比宽度,比如有10列内容,我们却设置了每个单元格是30%的宽度,会 ...

  9. [ZJOI2004]嗅探器 (割点)

    这题就比较好玩吧水题 以数据范围来看随便怎么做就能过 \(O(n)\)显然我们得过一个割点,其次这个割点得在\(x-y\)中间且不为始终点 其他都好说,在中间:从\(x\)开始遍历,首先得保证\(x- ...

  10. zabbix (5) 用户、主机等创建

    1.创建新用户: 管理---> 用户--->创建用户 在右上角用户群组这里可以按下拉菜单,为某个组创建用户,默认是all 点击创建用户以后,出现如下图: 2.创建组 管理--->用户 ...