Docker 多主机方案
利用OpenVSwitch构建多主机Docker网络
运行Docker已经不是什么新鲜事,网上有很多入门教程来帮助你在一台主机上运行容器。这台主机可以是Linux服务器,也可以是Mac(借助类似boot2docker的项目)。
在多台主机上运行却是另外一回事……
可选方案:
- 分别在每台主机上运行Docker,在公网或内网网卡上暴露端口以便容器间相互通讯。这可能比较麻烦,而且会引发安全问题。
- 运行类似Weave的中间层方案来完全地抽象网络。这个项目前景不错,不过还太年轻,尚未与compose(之前的fig)或maestro-ng这类编排工具整合。
- 运行类似Deis或Flynn的Docker多主机一站式方案。这可能不在你的考虑范围内。
- 在主机间的网状网络中创建一个共享网桥,让Docker服务在那运行容器。这听起来有点复杂,不过……本文中我们将看到这可以非常容易地完成!

概述
基本上,我们将执行以下步骤:
- 在每台服务器上安装Docker;
- 在每台服务器上安装OpenVSwitch;
- 自定义网络设置用以自动在主机间创建网桥/隧道(在每台服务器的
/etc/network/interfaces
里); - 自定义每个Docker服务配置,只处理
docker0
IP范围的一小部分,防止新容器的IP地址发生重叠。
就是这样。重启服务或重启服务器后,你将获得一个具备连接冗余(link redundancy)的全网状网络,Docker服务可以在专用的IP范围(不会重叠)上运行容器,并且不需要在公网或内网网卡上暴露所有端口就能互联。很棒,对么?
技术
简单列一下我们用到的技术:
- Docker:嗯……这是篇关于Docker与网络的文章,所以……
- OpenVSwitch:非常棒的虚拟网络交换机项目,伸缩性非常好,根据本指南,你可以运行“任意”规模的网络。
我们将假定服务器运行的是Ubuntu Server 14.04.02 LTS x64,对于其它系统,你可能需要修改下面提供的各项配置。
安装
Docker
无需多言,遵循官网提供的指南就行。稍后我们将深入其配置,以便运行于服务器上的不同Docker服务可相互协作。
OpenVSwitch
糟糕的是,默认仓库里OpenVSwitch安装包不可用(或过期了),我们需要自己构建.deb
文件(一次),然后分发给不同主机。为了保持生产机的整洁,可另外找台小主机来安装开发包,并构建安装包。
OpenVSwitch GitHub上有详细的构建手册。
执行下列命令来构建安装包(新版请按要求修改):
#获取最新存档
wget http://openvswitch.org/releases/openvswitch-2.3.1.tar.gz
tar xzvf openvswitch-2.3.1.tar.gz
cd openvswitch-2.3.1 #安装依赖
sudo apt-get install -y build-essential fakeroot debhelper \
autoconf automake bzip2 libssl-dev \
openssl graphviz python-all procps \
python-qt4 python-zopeinterface \
python-twisted-conch libtool # 构建(不使用并行检查)
DEB_BUILD_OPTIONS='parallel=8 nocheck' fakeroot debian/rules binary # 得到最新deb文件并复制到某处
cd ..
ls -al *deb
现在你有了新的.deb
安装包,接下来将其推送并安装到所有主机上。
# 复制包到各主机并ssh登录
scp -r *deb user@remote_host:~/.
ssh user@remote_host # 安装一些依赖(后面需要)并安装包
sudo apt-get install -y bridge-utils
sudo dpkg -i openvswitch-common_2.3.1-1_amd64.deb \
openvswitch-switch_2.3.1-1_amd64.deb
配置
网络
你可以使用OpenVSwitch提供的不同命令行工具来构建网状网络(比如ovs-vsctl
),不过Ubuntu提供了一个辅助工具让你可以通过/etc/network/interfaces
文件定义网络。
假定三台主机:1.1.1.1、2.2.2.2和3.3.3.3,可以通过上述IP相互ping通,它们是在公网或内网上并不重要。host1的/etc/network/interfaces
大概如下。
...
# eth0、eth1和lo配置
... # auto:为了有效地在主机启动时启动它
# br0=br0:防止在`ifquery --list`时被找到
auto br0=br0
allow-ovs br0
iface br0 inet manual
ovs_type OVSBridge
ovs_ports gre1 gre2
ovs_extra set bridge ${IFACE} stp_enable=true
mtu 1462 # 没有auto,这是ovs的一个额外配置
# 两台主机的gre名字必须相符
allow-br0 gre1
iface gre1 inet manual
ovs_type OVSPort
ovs_bridge br0
ovs_extra set interface ${IFACE} type=gre options:remote_ip=2.2.2.2 allow-br0 gre2
iface gre2 inet manual
ovs_type OVSPort
ovs_bridge br0
ovs_extra set interface ${IFACE} type=gre options:remote_ip=3.3.3.3 # auto:启动时创建
# 定义docker要使用的docker0,并(在可用时)连接到到OpenVSwitch创建的br0网桥上
# 每台主机需要使用不同的IP地址(不要相互冲突!)
auto docker0=docker0
iface docker0 inet static
address 172.17.42.1
network 172.17.0.0
netmask 255.255.0.0
bridge_ports br0
mtu 1462
在其它主机上要对这个配置上做些调整:remote_ip
的IP地址要相互配对。

几点说明:
- 生成树协议(Spanning Tree Protocol):如果应用该配置,将在3台服务器中创建一个网络回路,这可不行。给
br0
网桥添加stp_enable=true
将确保一些gre
隧道被切断。同时确保网状网络的冗余,允许网络在其中一台主机下线时恢复。 - MTU:这是一项关键设定!没有这项,你可能获得一些意外“惊喜”:网络看起来工作正常(比如可以ping),但无法支持大数据包(比如BW测试中的iperf、大数据量请求或简单的文件复制)。注意,GRE隧道需要封装多种协议:
- 以太网:14字节——我们说的是网桥间的第2层;
- IPv4:20字节——容器/主机间通讯;
- GRE:4字节——因为,嗯,这是个GRE隧道;
- 也就是物理网卡MTU减去38字节,结果是1462(基于常规的1500 MTU网卡)。
- 在auto定义中使用“
=
”:对于具有固定IP的服务器这不是必需的,但有些云服务商(这里就不说是谁了……Digital Ocean(译者:软广再次乱入))使用了一个依靠ifquery --list --allow auto
的init服务(/etc/init/cloud-init-container.conf
)。不加上“=
”号将包含OpenVSwitch网卡,并延迟整个启动过程直到init脚本失败并超时。 - docker0网桥:每台服务器都需要自己的IP地址(比如
172.17.42.1
、172.17.42.2
)。由于docker0
网桥处在br0
网桥之上,它们将(也应该!)可以相互连接。想象一下,要解决IP冲突会有多乱……这也是为什么我们要在启动时定义它,而不依赖docker服务来为我们创建这个网桥。 - GRE隧道:你可以从gre0(而不是gre1)开始,它能完美工作。但由于某种原因,在输入
ifconfig
时你可以看到gre0
,却看不到其他隧道。这可能是gre0
作为虚拟网卡的一个副作用。从gre1
开始将让所有的gre
隧道对ifconfig
“隐身”(好过于只能看见一个)。别着急,你还是可以使用ovs-vsctl
命令显示隧道/网桥。 - 3台以上主机:你可以遵循相同的逻辑,并且:
- 添加额外的隧道(iface greX)来连接新主机。
- 在
br0
网桥定义中更新ovs_ports
以包含interfaces
文件中定义的所有gre
隧道。 - 聪明点……不要将每台服务器跟其他主机一一链接……STP收敛(convergence)将需要更长的时间,并且无法提供任何除了多重额外链路冗余之外的有用价值。
如果现在重启服务器,你将拥有一个具备冗余的网状网络,你可以运行以下命令来测试:
- 从host1上
ping 172.17.42.2
或其他IP; - 在主机上运行
iperf
,通过ifconfig
查看使用中的链接; - 在ping第三台主机时停止“中间”那台,查看网络收敛(通过STP)时ping中断了几秒钟。

Docker
我们现在有了一个完善的网络,每个Docker服务都可以将它们的容器挂接到docker0
网桥上。让Docker自动完成这步不是很棒么?答案在于Docker有能力分配一个最小的IP地址池!
对于该示例,我们假定:
- 每台主机(
1.1.1.1
、2.2.2.2
、3.3.3.3
)挂接到前面创建的docker0
网桥上,其各自的IP地址是172.17.42.1
、172.17.42.2
、172.17.42.3
; - 给
docker0
网卡指定了一个/16的IP范围; - 给每台主机指定了一小块
docker0
的IP范围,以/18fixed-cidr
的形式保存在它们的docker服务配置中。分别是172.17.64.0/18
、172.17.128.0/18
、172.17.192.0/18
。
如果你的主机多于3台,你需要细分一个每个范围,或根据组织需要对整个网络拓扑结构进行重新考虑。

host1的配置文件(/etc/default/docker
)是这样的:
BRIDGE=docker0
CIDR=172.17.64.0/18 wait_ip() {
address=$(ip add show $BRIDGE | grep 'inet ' | awk '{print $2}')
[ -z "$address" ] && sleep $1 || :
} wait_ip 5
wait_ip 15 DOCKER_OPTS="
-H unix:///var/run/docker.sock
-H tcp://0.0.0.0:2375
--fixed-cidr=$CIDR
--bridge $BRIDGE
--mtu 1462
"
你可以根据需要修改DOCKER_OPTS
配置,添加镜像、不安全的registry、DNS等等。
说明:
- wait_ip:由于
docker0
网桥最后被创建,获取IP地址可能需要花点时间。使用wait_ip
“功能”,你可以在返回docker init脚本前安全地等待几秒钟。该配置文件是被真正的init脚本(/etc/init/docker.conf
)所引用。 - mtu:与前面相同原因,只是一个预防措施,用于确保每个网卡被创建时会被指定正确的MTU。
- -H tcp://……:如果你不想通过
0.0.0.0
将其“公开”(或绑定到服务器“真实”网卡之一),你也可以将它安全地绑定到……该主机的docker0
IP地址(比如172.17.42.2
)!这样,你可以从任何一台主机访问到私有网状网络里的任何一个docker服务。
结语
重启一下(至少保证启动时所有东西都会自动上线)。
你可以试试以下命令看看一切是否正常。
# 访问host1
ssh user@host1 # 运行一个新容器
docker run -ti ubuntu bash # 检查IP(在容器内运行)
ip add | grep eth0 #
# 在其他窗口中
#
# 访问另一台主机(host2或3)
ssh user@host2 # 运行一个新容器
docker run -ti ubuntu bash # Ping其他的容器!
ping $IP
这不是一份指导如何在多主机上设置Docker的权威指南,欢迎大家提出批评(译者注:译稿也一样,请大家多多指正)。很多想法是在整体安装时产生的,本文尽可能详细地说明了为何选择这个或那个选项。
如果将分级网桥、VLAN等包括进来,事情将更复杂,不过那超出了本文的范围。;)
显然,更完整的网络是有需求的,而且看起来这个已经在开发中。
参考内容
- https://goldmann.pl/blog/2014/ ... osts/
- http://networkstatic.net/open- ... tion/
- http://networkstatic.net/confi ... itch/
- http://fbevmware.blogspot.com. ... .html
- http://openvswitch.org/support ... .html
- https://access.redhat.com/docu ... .html
- https://communities.vmware.com ... ation
- http://www.microhowto.info/tro ... .html
- http://blog.scottlowe.org/2013 ... itch/
- http://blog.scottlowe.org/2013 ... itch/
- https://github.com/openvswitch ... an.md
- http://baturin.org/tools/encapcalc/
如果你读完本文了,恭喜!
Docker 多主机方案的更多相关文章
- docker多主机网络方案
本文探讨Docker多主机网络的性能. 在过去的博文里,我测试过 Docker的网络 . MySQL服务器团队 提供了他们自己的结果,和我的观察是一致的. 本文里一系列的测试,想更多关注使用多主机的D ...
- Docker跨主机网络——overlay
前言 在Docker网络--单host网络一文中,我为大家总结了Docker的单机网络相关知识和操作,单机网络比较容易.本文我为大家总结Docker跨主机通信相关知识.同样本文大部分内容以CloudM ...
- 最新选择Godaddy主机方案美国数据中心教程指导
随着Godaddy官方管理层的变动之后,主营重心已经从当初的域名开始转向到域名和主机产品上.这点我们从其发布域名优惠信息的频率也可以看到,而且我们可以看到常年的主机半价优惠,以及针对主机销售年付方案赠 ...
- Docker多主机管理(八)--技术流ken
docker多主机管理 前面我们的实验环境中只有一个 docker host,所有的容器都是运行在这一个 host 上的.但在真正的环境中会有多个 host,容器在这些 host 中启动.运行.停止和 ...
- Docker多主机互联最佳实践
在公司使用docker多主机互联时碰到了各种坑.搞清楚后才发现如此简单,以下是根据实际经验的总结. 版本信息 Client: Version: 18.09.0 API version: 1.39 Go ...
- Docker挂载主机目录Docker访问出现Permission denied的解决办法
Docker挂载主机目录,访问相应的文件出现Premission denied的权限访问问题, [root@localhost soft]# docker images REPOSITORY ...
- Docker多主机网络 OpenvSwitch
一.Open vSwitch Open vSwitch(以下简称为OVS),英文全称:OpenVirtual Switch,顾名思义,Open vSwitch就是开放虚拟交换.我们可以把他理解成 ...
- docker中宿主机与容器(container)互相拷贝传递文件的方法
转载请注明出处:http://blog.csdn.net/dongdong9223/article/details/71425077 本文出自[我是干勾鱼的博客] 前面讲解过如何进入.退出docker ...
- 基于Ceph分布式集群实现docker跨主机共享数据卷
上篇文章介绍了如何使用docker部署Ceph分布式存储集群,本篇在此基础之上,介绍如何基于Ceph分布式存储集群实现docker跨主机共享数据卷. 1.环境准备 在原来的环境基础之上,新增一台cen ...
随机推荐
- poj 1039
#include <iostream> #include <algorithm> #include <cstring> #include <cstdlib&g ...
- 学习笔记DL007:Moore-Penrose伪逆,迹运算,行列式,主成分分析PCA
Moore-Penrose伪逆(pseudoinverse). 非方矩阵,逆矩阵没有定义.矩阵A的左逆B求解线性方程Ax=y.两边左乘左逆B,x=By.可能无法设计唯一映射将A映射到B.矩阵A行数大于 ...
- [工作积累] UE4 并行渲染的同步 - Sync between FParallelCommandListSet & FRHICommandListImmediate calls
UE4 的渲染分为两个模式1.编辑器是同步绘制的 2.游戏里是FParallelCommandListSet并行派发的. mesh渲染也分两类,static mesh 使用TStaticMeshDra ...
- mnist的格式说明,以及在python3.x和python 2.x读取mnist数据集的不同
有一个关于mnist的一个事例可以参考,我觉得写的很好:http://www.cnblogs.com/x1957/archive/2012/06/02/2531503.html #!/usr/bin/ ...
- Cygwin,一个提供linux命令行体验的Windows命令行工具
安装 从官网下载,选择合适节点(带edu结尾的优先),安装 使用 未完待续...
- Flink
1. Flink表接受是基于dataset.datastream的:首先需要注册一个dataset,然后通过sql去查询这个dataset,返回的即使基于dataset查询结果,这个查询结构就是Fli ...
- zabbix3.4使用外部邮件报警
打开web页面,找到 管理--报警媒介类型 打开 Email 填写外部邮箱信息 点击更新,这样发件人和邮箱服务器信息定义完成. 添加收件人信息: 接下来创建动作,配置---动作---选触发器 ok 过 ...
- [转]自建Syncthing中继服务器(私密传输或造福大众)
自建Syncthing中继服务器(私密传输或造福大众) 一.介绍 我之前介绍了Syncthing,作为一款开源的文件同步程序,它的功能还是非常强大的,我也很高兴能看到它被越来越多的人知道和使用,前几天 ...
- laravel Cache store [] is not defined
去这个网站学习一下也好 https://laravel-china.org/topics/2093/laravel-source-analysis-series-cache#0b2791 如果env ...
- WMware 中CentOS系统Hadoop 分布式环境搭建(一)——Hadoop安装环境准备
1.创建3台虚拟机并装好系统,这里使用64位CentOS. 2.Ping测试[确保两两能ping通]: [ping xxx.xxx.xxx.xxx] 3.安装SSH:[yum install ssh ...