背景

使用Kubeadm在国内部署Kubernetes集群时,由于无法访问k8s.gcr.io,就修改了默认的仓库地址,直接使用了Azure 提供的gcr.azk8s.cn/google_containers仓库。

部署信息

操作系统:Centos7
Kubernetes:v1.17.0 单Master节点

问题

docker pull gcr.azk8s.cn/google_containers/pause:3.1
Error response from daemon: error parsing HTTP 403 response body: invalid character '<' looking for beginning of value: "<html>\r\n<head><title>403 Forbidden</title></head>\r\n<body bgcolor=\"white\">\r\n<center><h1>403 Forbidden</h1></center>\r\n<hr><center>nginx/1.14.0 (Ubuntu)</center>\r\n</body>\r\n</html>\r\n"

近期Azure调整了策略,其仓库只允许 Azure China IP 使用,不再对外提供服务, 如果确实有需求,可以联系akscn@microsoft.com并提供IP地址。官方说明:https://mirror.azure.cn/help/docker-registry-proxy-cache.html 这样我在新增节点时就无法下载kube-proxy以及pause镜像了,甚至节点出现意外时,对恢复节点也造成一定影响。

目标

切换所有相关镜像至新的仓库。

实施

升级过程中服务会短暂中断,也可能存在未知风险,应提前做好准备。
升级过程中服务会短暂中断,也可能存在未知风险,应提前做好准备。
升级过程中服务会短暂中断,也可能存在未知风险,应提前做好准备。

仓库切换涉及到两个核心内容:

  1. Kubernetes集群镜像,以及现有运行中的所有基础服务。
  2. Kubeadm配置信息,保证新增节点拿到新的配置信息,进行初始化。

创建仓库代理

创建代理仓库的细节网上很多,就不详细赘述。

网上可以找到很多更好的仓库,像:阿里、中科大、网易都有相关的服务提供。为了自主可控,我还是选择了阿里云香港节点的轻量应用服务器做了代理,宽带峰值30M,每月1T流量,经常会被限速,体验不怎么好,但好歹自主可控了。急需的同学倒是可以拿来应急下。

  • hub.docker.com -> dockerhub.msorg.cn
  • gcr.io -> gcr.msorg.cn
  • k8s.gcr.io -> k8sgcr.msorg.cn
  • quay.io -> quay.msorg.cn

更新镜像

镜像清单可以通过kubeadm config images list命令查看到。

k8s.gcr.io/kube-apiserver:v1.17.0
k8s.gcr.io/kube-controller-manager:v1.17.0
k8s.gcr.io/kube-scheduler:v1.17.0
k8s.gcr.io/kube-proxy:v1.17.0
k8s.gcr.io/pause:3.1
k8s.gcr.io/etcd:3.4.3-0
k8s.gcr.io/coredns:1.6.5

kube-apiserverkube-controller-managerkube-scheduleretcd可以在主节点的/etc/kubernetes/manifests/目录下找到,yaml配置文件修改保存后立即生效。
corednskube-proxy是发布到Kubernetes集群中的,直接kubectl更新配置。
pause是与kubelet绑定在一起的,修改service配置即可。

更新kube-apiserver

在主节点的/etc/kubernetes/manifests/目录中,找到kube-apiserver.yaml文件,修改其中的image部分即可,如:image: gcr.msorg.cn/google_containers/kube-apiserver:v1.17.0 修改之后保存文件立即生效。

更新kube-controller-manager

在主节点/etc/kubernetes/manifests/目录中,找到kube-controller-manager.yaml文件,修改其中的image部分即可,如:image: gcr.msorg.cn/google_containers/kube-controller-manager:v1.17.0 修改之后保存文件立即生效。

更新kube-scheduler

在主节点/etc/kubernetes/manifests/目录中,找到kube-scheduler.yaml文件,修改其中的image部分即可,如:image: gcr.msorg.cn/google_containers/kube-scheduler:v1.17.0 修改之后保存文件立即生效。

更新etcd

在主节点/etc/kubernetes/manifests/目录中,找到etcd.yaml文件,修改其中的image部分即可,如:image: gcr.msorg.cn/google_containers/etcd:3.4.3-0 修改之后保存文件立即生效。

更新coredns

coredns被以deployment的方式发布在Kubernetes集群之上,我们只需要修改其配置即可。
可以使用命令kubectl edit deployment coredns -n kube-system,修改其image部分配置,如:image: gcr.msorg.cn/google_containers/coredns:1.6.5

更新kube-proxy

kube-proxy被以daemonset的方式发布在Kubernetes集群之上,我们只需要需改其配置即可。
可以使用kubectl edit daemonset kube-proxy -n kube-system命令进行编辑,修改其image部分配置,如:image: gcr.msorg.cn/google_containers/kube-proxy:v1.17.0

更新pause镜像

该镜像配置被放在每个节点上的kubelet启动命令中,可以通过以下方式确认。
使用ps -ef | grep kubelet命令查看当前kubelet启动信息

root     26588     1  2 Apr11 ?        06:18:01 /usr/bin/kubelet --bootstrap-kubeconfig=/etc/kubernetes/bootstrap-kubelet.conf --kubeconfig=/etc/kubernetes/kubelet.conf --config=/var/lib/kubelet/config.yaml --cgroup-driver=systemd --network-plugin=cni --pod-infra-container-image=gcr.msorg.cn/google_containers/pause:3.1

可以看到在启动时有pod-infra-container-image参数,修改此参数即可。具体此参数如何修改,因为系统不同,可能方式也不太一样,下面以Centos7系统为例,Centos7使用了systemd,演示如何查找该参数配置位置。
第一步:kubeadm已经将kubelet已经被安装为service了,可以使用service kubelet status查看当前service信息。

kubelet.service - kubelet: The Kubernetes Node Agent
   Loaded: loaded (/usr/lib/systemd/system/kubelet.service; enabled; vendor preset: disabled)
  Drop-In: /usr/lib/systemd/system/kubelet.service.d
           └─10-kubeadm.conf
   Active: active (running) since Sat 2020-04-11 17:27:03 CST; 1 weeks 1 days ago
     Docs: https://kubernetes.io/docs/
 Main PID: 26588 (kubelet)
    Tasks: 35
   Memory: 196.4M
   CGroup: /system.slice/kubelet.service
           └─26588 /usr/bin/kubelet --bootstrap-kubeconfig=/etc/kubernetes/bootstrap-kubelet.conf --kubeconfig=/etc/kubernetes/kubelet.conf --config=/var/lib/kubelet/config.yaml --cgroup-driver=systemd --network-plugin=cni --pod-infra-...

从以上信息中我们可以看到当前使用的service配置文件为/usr/lib/systemd/system/kubelet.service,并且加载了10-kubeadm.conf 第二步:查看service配置
使用cat /usr/lib/systemd/system/kubelet.service进行查看

[Unit]
Description=kubelet: The Kubernetes Node Agent
Documentation=https://kubernetes.io/docs/

[Service]
ExecStart=/usr/bin/kubelet
Restart=always
StartLimitInterval=0
RestartSec=10

[Install]
WantedBy=multi-user.target

发现其中并没有什么特别的,进一步查看10-kubeadm.conf,至于这个文件呢,在/usr/lib/systemd/system/kubelet.service.d路径下,或者使用find命令进行查找即可。

[Service]
Environment="KUBELET_KUBECONFIG_ARGS=--bootstrap-kubeconfig=/etc/kubernetes/bootstrap-kubelet.conf --kubeconfig=/etc/kubernetes/kubelet.conf"
Environment="KUBELET_CONFIG_ARGS=--config=/var/lib/kubelet/config.yaml"
# This is a file that "kubeadm init" and "kubeadm join" generates at runtime, populating the KUBELET_KUBEADM_ARGS variable dynamically
EnvironmentFile=-/var/lib/kubelet/kubeadm-flags.env
# This is a file that the user can use for overrides of the kubelet args as a last resort. Preferably, the user should use
# the .NodeRegistration.KubeletExtraArgs object in the configuration files instead. KUBELET_EXTRA_ARGS should be sourced from this file.
EnvironmentFile=-/etc/sysconfig/kubelet
ExecStart=
ExecStart=/usr/bin/kubelet $KUBELET_KUBECONFIG_ARGS $KUBELET_CONFIG_ARGS $KUBELET_KUBEADM_ARGS $KUBELET_EXTRA_ARGS

从此文件中我们可以找到/var/lib/kubelet/kubeadm-flags.env文件是在kubeadm initkubeadm join时产生的。基本可以确定下一步的目标了。
第三步:查看/var/lib/kubelet/kubeadm-flags.env文件
使用cat /var/lib/kubelet/kubeadm-flags.env查看该文件

KUBELET_KUBEADM_ARGS="--cgroup-driver=systemd --network-plugin=cni --pod-infra-container-image=gcr.msorg.cn/google_containers/pause:3.1"

我们会发现需要的内容真的在里面,这时候只需要改了pod-infra-container-image这个参数为我们所需要的,重新启动kubelet即可,每个node节点都需要手动修改。

更新kubeadm配置

Kubernetes中存有名为kubeadm-configConfigMap配置信息,需要对其进行更新。
可以使用kubectl edit cm kubeadm-config -n kube-system命令进行编辑,修改imageRepository部分,如:imageRepository: gcr.msorg.cn/google_containers

总结

至此所有操作就已经完成了。当然了,此方式比较野路子,原因是没有在官方文档中找到相关资料,如果哪位找到了,请告知我,谢谢。