一、Docker Swarm 概念

1、集群

从主机的层面来看,Docker Swarm 管理的是 Docker Host 集群。所以先来讨论一个重要的概念 - 集群化(Clustering)。

服务器集群由一组网络上相互连接的服务器组成,它们一起协同工作。一个集群和一堆服务器最显著的区别在于:
集群能够像 单个 系统那样工作,同时提供高可用、负载均衡和并行处理。

如果我们部署应用和服务时选择的是多个独立的服务器而非集群,资源的整体利用率则很难达到最优,因为我们无法提前知道如何分布这些应用才能达到资源利用的最大化。而且,应用使用资源的趋势是波动的,早上某些服务可能需要大量的内存,而下午使用量就降下来了。提前指定应用应该运行在哪个服务器上会丧失业务的弹性,当某个服务器宕机了,我们不得不手工将受影响的应用迁移到其他服务器上。

实现集群化后我们的思维方式就必须改变了:不再考虑一个一个的服务器,而是将集群看做是一个整体。

部署应用时,我们只考虑需要多少内存和 CPU,而不是考虑会使用那台服务器的内存和 CPU。我们不应该关心应用会被部署在哪里,我们关心的是运行这个应用需要哪些资源,然后将它部署到集群,集群管理程序(比如 Docker Swarm)会搞定这些细节。

集群整体容量的调整是通过往集群中添加和删除主机节点实现的。但不管做怎样的操作,集群始终还是一个整体。

2、Docker Swarm

Docker v1.12 是一个非常重要的版本,Docker 重新实现了集群的编排方式。在此之前,提供集群功能的 Docker Swarm 是一个单独的软件,而且依赖外部数据库(比如 Consul、etcd 或 Zookeeper)。

从 v1.12 开始,Docker Swarm 的功能已经完全与 Docker Engine 集成,要管理集群,只需要启动 Swarm Mode。安装好 Docker,Swarm 就已经在那里了,服务发现也在那里了(不需要安装 Consul 等外部数据库)。

3、重要概念

swarm

swarm 是运行 Docker Engine 的多个主机组成的集群。

从 v1.12 开始,集群管理和编排功能已经集成进 Docker Engine。当 Docker Engine 初始化了一个 swarm 或者加入到一个存在的 swarm 时,它就启动了 swarm mode。

没启动 swarm mode 时,Docker 执行的是容器命令;运行 swarm mode 后,Docker 增加了编排 service 的能力。

Docker 允许在同一个 Docker 主机上既运行 swarm service,又运行单独的容器。

node

swarm 中的每个 Docker Engine 都是一个 node,有两种类型的 node:manager 和 worker。

为了向 swarm 中部署应用,我们需要在 manager node 上执行部署命令,manager node 会将部署任务拆解并分配给一个或多个 worker node 完成部署。

manager node 负责执行编排和集群管理工作,保持并维护 swarm 处于期望的状态。swarm 中如果有多个 manager node,它们会自动协商并选举出一个 leader 执行编排任务。

woker node 接受并执行由 manager node 派发的任务。默认配置下 manager node 同时也是一个 worker node,不过可以将其配置成 manager-only node,让其专职负责编排和集群管理工作。

work node 会定期向 manager node 报告自己的状态和它正在执行的任务的状态,这样 manager 就可以维护整个集群的状态。

service

service 定义了 worker node 上要执行的任务。swarm 的主要编排任务就是保证 service 处于期望的状态下。

举一个 service 的例子:在 swarm 中启动一个 http 服务,使用的镜像是 httpd:latest,副本数为 3。

manager node 负责创建这个 service,经过分析知道需要启动 3 个 httpd 容器,根据当前各 worker node 的状态将运行容器的任务分配下去,比如 worker1 上运行两个容器,worker2 上运行一个容器。

运行了一段时间,worker2 突然宕机了,manager 监控到这个故障,于是立即在 worker3 上启动了一个新的 httpd 容器。

这样就保证了 service 处于期望的三个副本状态。

二、创建 Swarm 集群

1、环境准备

所有节点的 Docker 版本均不低于 v1.12,我们是最新版的 v18.04,我们的实验环境 node 的操作系统为 Ubuntu 16.04,当然其他 Linux 也是可以的。

swarm-manager:192.168.1.200
swarm-worker1:192.168.1.201
swarm-worker1:192.168.1.203

2、创建 swarm

在 swarm-manager 上执行如下命令创建 swarm,使用命令docker swarm init --advertise-addr 192.168.1.200

[root@master ~]# docker swarm init --advertise-addr 192.168.1.200
Swarm initialized: current node (udbgr7vn9x5gntpqbj8m82x7l) is now a manager.

To add a worker to this swarm, run the following command:

    docker swarm join \
        --token SWMTKN-1-22q5qlm1mxbilt504ghcf0ug9gsn9a40szbhiohyh9kqiayyku-a8crg1xr8vab1vwrh7kmsy3kw \
        192.168.1.200:2377

To add a manager to this swarm, run 'docker swarm join-token manager' and follow the instructions.

从结果输出我们可以看出 manager 已经初始化完成,swarm-manager 成为 manager node,可以看到添加 worker node 和 manager node 的执行指令。

--advertise-addr:指定与其他 node 通信的地址。

3、添加 node

执行 docker node ls 查看当前 swarm 的 node,目前只有一个 manager。

[root@master ~]# docker node ls
ID                            HOSTNAME            STATUS              AVAILABILITY        MANAGER STATUS      ENGINE VERSION
udbgr7vn9x5gntpqbj8m82x7l *   master              Ready               Active              Leader              18.04.0-ce

如果当时没有记录下 docker swarm init 提示的添加 worker 的完整命令,可以通过docker swarm join-token worker查看。

复制前面的 docker swarm join命令,在 swarm-worker1 和 swarm-worker2 上执行,将它们添加到 swarm 中。

但是出现如下问题:

docker swarm部署架构图 docker swarm原理_数据库

这是因为我们在之前配置多主机网络的时候,添加的配置,我们现在需要取消掉这两个参数。

--cluster-advertise:是用来指定集群与其他node的通信地址的。
--cluster-store:是我之前做网络实验的时候配置了etcd集群的通信地址用的。

docker swarm部署架构图 docker swarm原理_docker_02

去掉之后,重启docker,host1 和 host2 即可添加了。

docker swarm部署架构图 docker swarm原理_数据库_03

root@host2:~# docker swarm join \
> --token SWMTKN-1-22q5qlm1mxbilt504ghcf0ug9gsn9a40szbhiohyh9kqiayyku-a8crg1xr8vab1vwrh7kmsy3kw \
> 192.168.1.200:2377
This node joined a swarm as a worker.

4、查看添加结果

docker node ls可以看到两个 worker node 已经添加进来了。

[root@master ~]# docker node ls
ID                            HOSTNAME            STATUS              AVAILABILITY        MANAGER STATUS      ENGINE VERSION
c1scfpzw4s9hx1ykiggzs5qym     host1               Ready               Active                                  18.04.0-ce
6cwk70xzafhfwn1x3replywn7     host2               Ready               Active                                  18.04.0-ce
udbgr7vn9x5gntpqbj8m82x7l *   master              Ready               Active              Leader              18.04.0-ce

至此,三节点的 swarm 集群就已经搭建好了,操作还是相当简单的。

三、部署 Docker Service

1、创建 service

我们创建好了 Swarm 集群, 现在部署一个运行 httpd 镜像的 service,执行如下命令:

[root@master ~]# docker service create --name web_server httpd
gjy6az3urqsbktichzoz6vpdh
overall progress: 1 out of 1 tasks 
1/1: running   [==================================================>] 
verify: Service converged

2、查看

通过 docker service ls 可以查看当前 swarm 中的 service。

[root@master ~]# docker service ls
ID                  NAME                MODE                REPLICAS            IMAGE               PORTS
gjy6az3urqsb        web_server          replicated          1/1                 httpd:latest

REPLICAS 显示当前副本信息,1/1 的意思是 web_server 这个 service 期望的容器副本数量为 1,目前已经启动的副本数量为 1。也就是当前 service 已经部署完成。
命令 docker service ps可以查看 service 每个副本的状态。

[root@master ~]# docker service ps gjy6az3urqsb
ID                  NAME                IMAGE               NODE                DESIRED STATE       CURRENT STATE           ERROR               PORTS
b86hi4ivf855        web_server.1        httpd:latest        master              Running             Running 3 minutes ago

我们可以看到 service 被分配到了 master 上面。

3、service scale up

前面部署了只有一个副本的 Service,不过对于 web 服务,我们通常会运行多个实例。这样可以负载均衡,同时也能提供高可用。

swarm 要实现这个目标非常简单,增加 service 的副本数就可以了。在 swarm-manager 上执行如下命令:

[root@master ~]# docker service scale web_server=5
web_server scaled to 5
overall progress: 5 out of 5 tasks 
1/5: running   [==================================================>] 
2/5: running   [==================================================>] 
3/5: running   [==================================================>] 
4/5: running   [==================================================>] 
5/5: running   [==================================================>] 
verify: Service converged

副本数增加到 5,通过 docker service lsdocker service ps web_server查看副本的详细信息。

docker swarm部署架构图 docker swarm原理_docker swarm部署架构图_04

我们可以看到 manager 上面运行了两个副本,默认配置下 manager node 也是 worker node,所以 swarm-manager 上也运行了副本。如果不希望在 manager 上运行 service,可以执行如下命令:

docker node update --availability drain master

docker swarm部署架构图 docker swarm原理_操作系统_05

docker swarm部署架构图 docker swarm原理_运维_06

我们可以看到 master 上面的副本已经转移了。

4、service scale down

前面我们的场景是 scale up,我们还可以 scale down,减少副本数,运行下面的命令:

[root@master ~]# docker service scale web_server=3
web_server scaled to 3
overall progress: 3 out of 3 tasks 
1/3: running   [==================================================>] 
2/3:   
3/3: running   [==================================================>] 
verify: Service converged

docker swarm部署架构图 docker swarm原理_数据库_07

我们可以看到目前 host1 上面运行了一个副本,host2 上面运行了两个副本。

5、故障转移

故障是在所难免的,容器可能崩溃,Docker Host 可能宕机,不过幸运的是,Swarm 已经内置了 failover 策略。

创建 service 的时候,我们没有告诉 swarm 发生故障时该如何处理,只是说明了我们期望的状态(比如运行3个副本),swarm 会尽最大的努力达成这个期望状态,无论发生什么状况。

以前面部署的 Service 为例,当前 3 个副本分布在 host1 和 host2 上,现在我们测试 swarm 的 failover 特性,关闭 host1。

docker swarm部署架构图 docker swarm原理_docker swarm部署架构图_08

Swarm 会将 host1 上的副本调度到其他可用节点。我们可以通过 docker service ps web_server查看。

docker swarm部署架构图 docker swarm原理_运维_09

可以看到,副本 已经从 host1 迁移到了host2,之前运行在故障节点 host1 上的副本状态被标记为 Shutdown。

四、访问 Service

前面我们已经学习了如何部署 service,也验证了 swarm 的 failover 特性。不过截止到现在,有一个重要问题还没有涉及:如何访问 service?

为了便于分析,我们重新部署 web_server,首先删除 web_server。

[root@master ~]# docker service rm web_server
web_server

重新创建 service,这次直接用 --replicas=2 创建两个副本。

[root@master ~]# docker service create --name web_server --replicas=2 httpd
r9q5qbwz78j9yfzlkam9cjo2f
overall progress: 2 out of 2 tasks 
1/2: running   
2/2: running   
verify: Service converged

我们可以看到 host1 和 host2 上面个运行一个副本。

[root@master ~]# docker service ps web_server
ID                  NAME                IMAGE               NODE                DESIRED STATE       CURRENT STATE                ERROR               PORTS
xpnhww0d1kdj        web_server.1        httpd:latest        host2               Running             Running about a minute ago                       
wq7ltc215laf        web_server.2        httpd:latest        host1               Running             Running about a minute ago

要访问 http 服务,最起码网络得通吧,服务的 IP 我们得知道吧,但这些信息目前我们都不清楚。不过至少我们知道每个副本都是一个运行的容器,要不先看看容器的网络配置吧。

root@host1:~# docker ps
CONTAINER ID        IMAGE               COMMAND              CREATED             STATUS              PORTS               NAMES
7694a2dc91e5        httpd:latest        "httpd-foreground"   2 minutes ago       Up 2 minutes        80/tcp              web_server.2.wq7ltc215lafm5s8b4hcnwn7r

在 host11 上运行了一个容器,是 web_server 的一个副本,容器监听了 80 端口,但并没有映射到 Docker Host,所以只能通过容器的 IP 访问。查看一下容器的 IP。

root@host1:~# docker exec 7694a2dc91e5 ip r
default via 172.17.0.1 dev eth0 
172.17.0.0/16 dev eth0  proto kernel  scope link  src 172.17.0.2

容器 IP 为 172.17.0.2,实际上连接的是 Docker 默认 bridge 网络。

我们可以直接在 swarm-worker1 上访问容器的 http 服务。

root@host1:~# curl 172.17.0.2
<html><body><h1>It works!</h1></body></html>

但这样的访问也仅仅是容器层面的访问,服务并没有暴露给外部网络,只能在 Docker 主机上访问。换句话说,当前配置下,我们无法访问 service web_server。

1、从外部访问 service

要将 service 暴露到外部,方法其实很简单,执行下面的命令:

[root@master ~]# docker service update --publish-add 8080:80 web_server
web_server
overall progress: 2 out of 2 tasks 
1/2: running   
2/2: running   
verify: Service converged

如果是新建 service,可以直接用使用 --publish 参数,比如:

docker service create --name web_server --publish 8080:80 --replicas=2 httpd

容器在 80 端口上监听 http 请求,--publish-add 8080:80 将容器的 80 映射到主机的 8080 端口,这样外部网络就能访问到 service 了。

[root@master ~]# curl 192.168.1.200:8080
<html><body><h1>It works!</h1></body></html>
[root@master ~]# curl 192.168.1.201:8080
<html><body><h1>It works!</h1></body></html>
[root@master ~]# curl 192.168.1.203:8080
<html><body><h1>It works!</h1></body></html>

大家可能会奇怪,为什么 curl 集群中任何一个节点的 8080 端口,都能够访问到 web_server?

这实际上就是使用 swarm 的好处了,这个功能叫做 routing mesh。

2、ingress 网络

docker swarm部署架构图 docker swarm原理_docker_10

当我们应用 --publish-add 8080:80 时,swarm 会重新配置 service,我们看看容器都发生了哪些重要变化。

[root@master ~]# docker service ps web_server
ID                  NAME                IMAGE               NODE                DESIRED STATE       CURRENT STATE           ERROR               PORTS
uuov3cjaa39v        web_server.1        httpd:latest        host2               Running             Running 17 hours ago                        
xpnhww0d1kdj         \_ web_server.1    httpd:latest        host2               Shutdown            Shutdown 17 hours ago                       
fhcm2ur40kjp        web_server.2        httpd:latest        host1               Running             Running 17 hours ago                        
wq7ltc215laf         \_ web_server.2    httpd:latest        host1               Shutdown            Shutdown 17 hours ago

之前的所有副本都被 Shutdown,然后启动了新的副本。我们查看一下新副本的容器网络配置。

docker swarm部署架构图 docker swarm原理_运维_11

容器的网络与 --publish-add 之前已经大不一样了,现在有两块网卡,每块网卡连接不同的 Docker 网络。

eth0 连接的是一个 overlay 类型的网络,名字为 ingress,其作用是让运行在不同主机上的容器可以相互通信。
eth1 连接的是一个 bridge 类型的网络,名字为 docker_gwbridge,其作用是让容器能够访问到外网。

docker swarm部署架构图 docker swarm原理_docker_12

ingress 网络是 swarm 创建时 Docker 为自动我们创建的,swarm 中的每个 node 都能使用 ingress。

通过 overlay 网络,主机与容器、容器与容器之间可以相互访问;同时,routing mesh 将外部请求路由到不同主机的容器,从而实现了外部网络对 service 的访问。