为什么需要升级集群?

现有集群有如下问题:

  1. 功能上更新;
  2. 现有环境存在bug;
  3. 存在安全隐患。

升级流程:

硬件层面:

  1. 先升级master;
  2. 再升级worker。

软件层面:

  1. 先升级kubeadm;
  2. 把节点执行drain操作;
  3. 升级各个组件;
  4. 取消drain操作;
  5. 升级kubelet和kubectl。

注意:升级时不能跨版本升级。例如1.19.x----1.21.y,是不允许的,只能升级到1.20.y。

一、升级控制平面节点:

注:这里的node的操作系统为centos系列。

一、执行 "kubeadm upgrade"

1.升级控制平面节点(master)

步骤1:升级 kubeadm

用最新的补丁版本号替换 1.21.x-0 中的 x

yum install -y kubeadm-1.21.x-0 --disableexcludes=kubernetes

步骤2:验证下载操作正常,并且 kubeadm 版本正确

kubeadm version

步骤3:验证升级计划并执行

kubeadm upgrade plan

此命令检查你的集群是否可被升级(可选),并取回你要升级的目标版本。 命令也会显示一个包含组件配置版本状态的表格。

选择要升级到的目标版本,运行合适的命令。例如:

sudo kubeadm upgrade apply v1.21.x

将 x 替换为你为此次升级所选择的补丁版本号。如果不想审计etcd,可以在命令后跟 --etcd-upgrade=false。

一旦该命令结束,你应该会看到:

[upgrade/successful] SUCCESS! Your cluster was upgraded to "v1.21.x". Enjoy!

[upgrade/kubelet] Now that your control plane is upgraded, please proceed with upgrading your kubelets if you haven't already done so.

步骤4:手动升级你的 CNI 驱动插件

你的容器网络接口(CNI)驱动应该提供了程序自身的升级说明。 如果 CNI 驱动作为 DaemonSet 运行,则在其他控制平面节点上不需要此步骤。

注意:对于其它控制面节点与第一个控制面节点相同,但是使用:

sudo kubeadm upgrade node

而不是:

sudo kubeadm upgrade apply

此外,不需要执行 kubeadm upgrade plan 和更新 CNI 驱动插件的操作。

二、腾空节点
通过将节点标记为不可调度并腾空节点为节点作升级准备:将 node-to-drain替换为你要腾空的控制面节点名称

kubectl drain <node-to-drain> --ignore-daemonsets

三、 kubelet 和 kubectl

步骤1:升级 kubelet 和 kubectl

yum install -y kubelet-1.21.x-0 kubectl-1.21.x-0 --disableexcludes=kubernetes

步骤2:重启 kubelet

sudo systemctl daemon-reload
sudo systemctl restart kubelet

四、解除节点的保护

通过将节点标记为可调度,让其重新上线:

kubectl uncordon <node-to-drain>

替换为你的节点名称。

升级工作节点:

工作节点上的升级过程应该一次执行一个节点,或者一次执行几个节点, 以不影响运行工作负载所需的最小容量。

一、升级 kubeadm

升级 kubeadm:

yum install -y kubeadm-1.21.x-0 --disableexcludes=kubernetes

二、执行 "kubeadm upgrade"

对于工作节点,下面的命令会升级本地的 kubelet 配置:

sudo kubeadm upgrade node

三、腾空节点

将节点标记为不可调度并驱逐所有负载,准备节点的维护:

kubectl drain <node-to-drain> --ignore-daemonsets

将 node-to-drain替换为你正在腾空的节点的名称。

四、升级 kubelet 和 kubectl

步骤1:将 1.21.x-0 x 替换为最新的补丁版本

yum install -y kubelet-1.21.x-0 kubectl-1.21.x-0 --disableexcludes=kubernetes

步骤2:重启 kubelet

sudo systemctl daemon-reload
sudo systemctl restart kubelet

五、取消对节点的保护

通过将节点标记为可调度,让节点重新上线:将 node-to-drain 替换为当前节点的名称

kubectl uncordon <node-to-drain>

三、验证与恢复

验证:
在所有节点上升级 kubelet 后,通过从 kubectl 可以访问集群的任何位置运行以下命令, 验证所有节点是否再次可用:

kubectl get nodes

STATUS 应显示所有节点为 Ready 状态,并且版本号已经被更新。

从故障状态恢复:
如果 kubeadm upgrade 失败并且没有回滚,例如由于执行期间节点意外关闭, 你可以再次运行 kubeadm upgrade。 此命令是幂等的,并最终确保实际状态是你声明的期望状态。 要从故障状态恢复,你还可以运行 kubeadm upgrade --force 而无需更改集群正在运行的版本。

在升级期间,kubeadm 向 /etc/kubernetes/tmp 目录下的如下备份文件夹写入数据:

kubeadm-backup-etcd-date -time
kubeadm-backup-manifests-date- time

kubeadm-backup-etcd 包含当前控制面节点本地 etcd 成员数据的备份。 如果 etcd 升级失败并且自动回滚也无法修复,则可以将此文件夹中的内容复制到 /var/lib/etcd 进行手工修复。如果使用的是外部的 etcd,则此备份文件夹为空。

kubeadm-backup-manifests 包含当前控制面节点的静态 Pod 清单文件的备份版本。 如果升级失败并且无法自动回滚,则此文件夹中的内容可以复制到 /etc/kubernetes/manifests 目录实现手工恢复。 如果由于某些原因,在升级前后某个组件的清单未发生变化,则 kubeadm 也不会为之 生成备份版本。