Kubernetes 遇见高性能计算 kubernetes master高可用

转载

mob64ca13fc5fb6 2024-05-04 10:52:01

文章标签 Kubernetes 遇见高性能计算 docker Docker 初始化 文章分类 kubernetes 云计算

安装步骤和笔记一安装时基本一样

系统初始化

安装依赖包

yum install -y conntrack ntpdate ntp ipvsadm ipset jq iptables curl sysstat libseccomp wget vim net-tools git

设置系统主机名以及 Host 文件的相互解析

hostnamectl set-hostname <hostname>

在每台master及高可用服务器添加 hosts：(或者大型环境使用DNS解析)

$ cat >> /etc/hosts << EOF
192.168.66.10 k8s-master01
192.168.66.20 k8s-master02
192.168.66.21 k8s-master03
192.168.66.100 k8s-vip
EOF

在每台master服务器上操作如下：

设置防火墙为 iptables 并清空规则

systemctl stop firewalld && systemctl disable firewalld 
yum -y install iptables-services && systemctl start iptables && systemctl enable iptables && iptables -F && 
service iptables save

关闭 SELINUX，关闭swap(防止容器在swap虚拟内存上运行)

swapoff -a && sed -i '/ swap / s/^\(.*\)$/#\1/g' /etc/fstab
setenforce 0 && sed -i 's/^SELINUX=.*/SELINUX=disabled/' /etc/selinux/config

调整内核参数

cat > kubernetes.conf <<EOF 
net.bridge.bridge-nf-call-iptables=1 #开启网桥模式
net.bridge.bridge-nf-call-ip6tables=1 
net.ipv4.ip_forward=1 
net.ipv4.tcp_tw_recycle=0 
vm.swappiness=0 # 禁止使用 swap 空间，只有当系统 OOM 时才允许使用它 
vm.overcommit_memory=1 # 不检查物理内存是否够用 
vm.panic_on_oom=0 # 开启 OOM 
fs.inotify.max_user_instances=8192 
fs.inotify.max_user_watches=1048576 
fs.file-max=52706963 
fs.nr_open=52706963 
net.ipv6.conf.all.disable_ipv6=1 #禁用ipv6
net.netfilter.nf_conntrack_max=2310720 
EOF 

cp kubernetes.conf /etc/sysctl.d/kubernetes.conf 
sysctl -p /etc/sysctl.d/kubernetes.conf

同步系统时间

# 设置系统时区为 中国/上海 
timedatectl set-timezone Asia/Shanghai 
# 将当前的 UTC 时间写入硬件时钟 
timedatectl set-local-rtc 0 
# 重启依赖于系统时间的服务
systemctl restart rsyslog systemctl restart crond

设置 rsyslogd 和 systemd journald

mkdir /var/log/journal # 持久化保存日志的目录 
mkdir /etc/systemd/journald.conf.d 
cat > /etc/systemd/journald.conf.d/99-prophet.conf <<EOF
[Journal] 
# 持久化保存到磁盘 
Storage=persistent 
# 压缩历史日志 
Compress=yes 
SyncIntervalSec=5m 
RateLimitInterval=30s 
RateLimitBurst=1000 
# 最大占用空间 10G 
SystemMaxUse=10G 
# 单日志文件最大 200M 
SystemMaxFileSize=200M 
# 日志保存时间 2 周 
MaxRetentionSec=2week 
# 不将日志转发到 
syslog ForwardToSyslog=no
EOF 
systemctl restart systemd-journald

升级系统内核

CentOS 7.x 系统自带的 3.10.x 内核存在一些 Bugs，导致运行的 Docker、Kubernetes 不稳定

rpm -Uvh http://www.elrepo.org/elrepo-release-7.0-3.el7.elrepo.noarch.rpm 
# 安装完成后检查 /boot/grub2/grub.cfg 中对应内核 menuentry 中是否包含 initrd16 配置，如果没有，再安装 一次！ 
yum --enablerepo=elrepo-kernel install -y kernel-lt 
# 设置开机从新内核启动 
grub2-set-default 'CentOS Linux (5.4.144-1.el7.elrepo.x86_64) 7 (Core)'
cat /proc/version

关闭 NUMA

cp /etc/default/grub{,.bak} 
vim /etc/default/grub # 在 GRUB_CMDLINE_LINUX 一行添加 `numa=off` 参数，如下所示： 
diff /etc/default/grub.bak /etc/default/grub 
6c6 
< GRUB_CMDLINE_LINUX="crashkernel=auto rd.lvm.lv=centos/root rhgb quiet" 
--- 
> GRUB_CMDLINE_LINUX="crashkernel=auto rd.lvm.lv=centos/root rhgb quiet numa=off" 
cp /boot/grub2/grub.cfg{,.bak}  #备份默认配置
grub2-mkconfig -o /boot/grub2/grub.cfg
reboot

Kubeadm部署安装

所有节点安装 Docker/kubeadm/kubelet

Kubernetes 默认 CRI（容器运行时）为 Docker，因此先安装 Docker

kube-proxy开启ipvs的前置条件

modprobe br_netfilter
cat > /etc/sysconfig/modules/ipvs.modules <<EOF
#!/bin/bash
modprobe -- ip_vs
modprobe -- ip_vs_rr
modprobe -- ip_vs_wrr
modprobe -- ip_vs_sh
modprobe -- nf_conntrack_ipv4
EOF
chmod 755 /etc/sysconfig/modules/ipvs.modules && bash /etc/sysconfig/modules/ipvs.modules &&
lsmod | grep -e ip_vs -e nf_conntrack_ipv4

安装 Docker 软件

yum install -y yum-utils device-mapper-persistent-data lvm2
yum-config-manager \
--add-repo \
http://mirrors.aliyun.com/docker-ce/linux/centos/docker-ce.repo
yum update -y && yum install -y docker-ce
## 创建 /etc/docker 目录
mkdir /etc/docker
# 配置 daemon.
cat > /etc/docker/daemon.json <<EOF
{
"exec-opts": ["native.cgroupdriver=systemd"],
"log-driver": "json-file",
"log-opts": {
"max-size": "100m"
}
}
EOF
mkdir -p /etc/systemd/system/docker.service.d
# 重启docker服务
systemctl daemon-reload && systemctl restart docker && systemctl enable docker

需要使用到的镜像及软件包

Kubernetes 遇见高性能计算 kubernetes master高可用_Kubernetes 遇见高性能计算

在主节点启动Haproxy与Keepalived容器

导入脚本 > 运行 > 查看可用节点  (也可以通过手动安装通过Nginx实现反向代理)
睿云的方案
mkdir -p /usr/local/kubernetes/install
cd !$
导入镜像及文件，5个文件
haproxy和keepalived.tar是睿云厂商编写的
kubeadm-basic.images.tar是k8s 1.15版本的基础镜像文件
load-images.sh 是加载镜像脚本
start.keep.tart.gz 是启动+部署脚本

scp /usr/local/kubernetes/install/* root@k8s-master02:/usr/local/kubernetes/install/
scp /usr/local/kubernetes/install/* root@k8s-master03:/usr/local/kubernetes/install/

[root@k8s-master01 install]# docker load -i haproxy.tar  #docker导入haproxy镜像
[root@k8s-master01 install]# docker load -i keepalived.tar　　#导入keepalived镜像
[root@k8s-master01 install]# tar -zxvf kubeadm-basic.images.tar.gz
[root@k8s-master01 install]# chmod a+x load-images.sh 
[root@k8s-master01 install]# ./load-images.sh #脚本批量加载k8s基础部署镜像

[root@k8s-master01 install]# tar -zxvf start.keep.tar.gz
[root@k8s-master01 install]# mv data/ /
[root@k8s-master01 install]# cd /data/lb
[root@k8s-master01 lb]# vim /data/lb/etc/haproxy.cfg
server rancher01 192.168.66.10:6443
注意：haproxy.cfg配置中负载的配置地址先只写一个，都部署完了再全部添加上，
因为如果同时写三个部署集群，未被部署的节点可能会被请求到，就会报错了。

[root@k8s-master01 lb]# sh start-haproxy.sh
[root@k8s-master01 lb]# netstat -anpt | grep 6444

[root@k8s-master01 lb]# vim start-keepalived.sh 
VIRTUAL_IP=192.168.66.100  #虚拟高可用IP(VIP)
INTERFACE=ens33 #当前网卡名称
[root@k8s-master01 lb]# sh start-keepalived.sh

集群安装

添加阿里云 YUM 软件源

$ cat > /etc/yum.repos.d/kubernetes.repo << EOF
[kubernetes]
name=Kubernetes
baseurl=https://mirrors.aliyun.com/kubernetes/yum/repos/kubernetes-el7-x86_64
enabled=1
gpgcheck=0
repo_gpgcheck=0
gpgkey=https://mirrors.aliyun.com/kubernetes/yum/doc/yum-key.gpg https://mirrors.aliyun.com/kubernetes/yum/doc/rpm-package-key.gpg
EOF

安装 kubeadm， kubelet 和 kubectl

由于版本更新频繁，这里指定版本号部署

yum install -y kubelet-1.18.0 kubeadm-1.18.0 kubectl-1.18.0
systemctl enable kubelet.service

部署 Kubernetes Master

这里也可以参考前面的安装笔记一，自动下载部署的方式)

#获取默认初始化模板
kubeadm config print init-defaults > kubeadm-config.yaml 

修改后如下：
apiVersion: kubeadm.k8s.io/v1beta2
bootstrapTokens:
- groups:
  - system:bootstrappers:kubeadm:default-node-token
  token: abcdef.0123456789abcdef
  ttl: 24h0m0s
  usages:
  - signing
  - authentication
kind: InitConfiguration
localAPIEndpoint:
  advertiseAddress: 192.168.66.10
  bindPort: 6443
nodeRegistration:
  criSocket: /var/run/dockershim.sock
  name: k8s-master01
  taints:
  - effect: NoSchedule
    key: node-role.kubernetes.io/master
---
apiServer:
  timeoutForControlPlane: 4m0s
apiVersion: kubeadm.k8s.io/v1beta2
certificatesDir: /etc/kubernetes/pki
clusterName: kubernetes
controlPlaneEndpoint: "192.168.66.100:6444" #高可用地址(VIP)
controllerManager: {}
dns:
  type: CoreDNS
etcd:
  local:
    dataDir: /var/lib/etcd
imageRepository: k8s.gcr.io
kind: ClusterConfiguration
kubernetesVersion: v1.15.0
networking:
  dnsDomain: cluster.local
  podSubnet: "10.244.0.0/16"  #pod地址池
  serviceSubnet: 10.96.0.0/12
scheduler: {}

#初始化主节点
kubeadm init --config=kubeadm-config.yaml --experimental-upload-certs | tee kubeadm-init.log

#--experimental-upload-certs 自动颁发证书

kubeadm-init.log日志如下：

Kubernetes 遇见高性能计算 kubernetes master高可用_Kubernetes 遇见高性能计算_03

加入其他master节点

master02/03都执行如下导入安装加载等操作，并启动keepalive、haproxy

[root@k8s-master01 lb]# scp -r /data root@k8s-master02:/
[root@k8s-master01 lb]# scp -r /data root@k8s-master03:/

k8s-master02/03：
[root@k8s-master02 install]# pwd
/usr/local/kubernetes/install
[root@k8s-master02 install]# 
docker load -i haproxy.tar 
docker load -i keepalived.tar
cd /data/lb/
sh start-haproxy.sh
sh start-keepalived.sh

同样都需要安装 kubeadm， kubelet 和 kubectl

$ cat > /etc/yum.repos.d/kubernetes.repo << EOF
[kubernetes]
name=Kubernetes
baseurl=https://mirrors.aliyun.com/kubernetes/yum/repos/kubernetes-el7-x86_64
enabled=1
gpgcheck=0
repo_gpgcheck=0
gpgkey=https://mirrors.aliyun.com/kubernetes/yum/doc/yum-key.gpg https://mirrors.aliyun.com/kubernetes/yum/doc/rpm-package-key.gpg
EOF

yum install -y kubelet-1.18.0 kubeadm-1.18.0 kubectl-1.18.0
systemctl enable kubelet.service

通过master01初始化日志(kubeadm-init.log)可以知道，添加master节点还需要执行下面步骤：

使用kubectl命令行管理工具(三台都需要执行)：

mkdir -p $HOME/.kube
sudo cp -i /etc/kubernetes/admin.conf $HOME/.kube/config
sudo chown $(id -u):$(id -g) $HOME/.kube/config

#此时kubectl就可以使用了
#查看节点
$ kubectl get nodes
NAME　　　　　　　　STATUS　　　　ROLES　　　　AGE　　　　VERSION
k8s-master01　　　NotReady　　　master　　　 4m13s　　　v1.15.1

添加master02/03节点：

Kubernetes 遇见高性能计算 kubernetes master高可用_Kubernetes 遇见高性能计算_04

然后把所有haproxy配置文件补全：

Kubernetes 遇见高性能计算 kubernetes master高可用_Docker_05

修改了haproxy后需要重新创建

docker ps

Kubernetes 遇见高性能计算 kubernetes master高可用_Kubernetes 遇见高性能计算_06

删除原节点信息，重新创建

docker rm -f HAProxy-K8S && bash /data/lb/start-haproxy.sh

Kubernetes 遇见高性能计算 kubernetes master高可用_Kubernetes 遇见高性能计算_07

其他机器同样需要替换

[root@k8s-master01 ~]# scp /data/lb/etc/haproxy.cfg root@k8s-master02:/data/lb/etc/haproxy.cfg
[root@k8s-master01 ~]# scp /data/lb/etc/haproxy.cfg root@k8s-master03:/data/lb/etc/haproxy.cfg

[root@k8s-master02 ~]# docker rm -f HAProxy-K8S && bash /data/lb/start-haproxy.sh
[root@k8s-master03 ~]# docker rm -f HAProxy-K8S && bash /data/lb/start-haproxy.sh

Etcd 集群状态查看

kubectl -n kube-system exec etcd-k8s-master01 -- etcdctl \   #"etcd-k8s-master01":容器名
--endpoints=https://192.168.66.10:2379 \ 
--ca-file=/etc/kubernetes/pki/etcd/ca.crt \ 
--cert-file=/etc/kubernetes/pki/etcd/server.crt \ 
--key-file=/etc/kubernetes/pki/etcd/server.key cluster-health 

kubectl get endpoints kube-controller-manager --namespace=kube-system -o yaml 
kubectl get endpoints kube-scheduler --namespace=kube-system -o yaml

查看etcd集群状态

Kubernetes 遇见高性能计算 kubernetes master高可用_Docker_08

kube-controller-manager集群状态：

Kubernetes 遇见高性能计算 kubernetes master高可用_Docker_09

kube-scheduler集群状态：

Kubernetes 遇见高性能计算 kubernetes master高可用_Kubernetes 遇见高性能计算_10

后续也可以通过master01初始化日志添加nodes节点

部署网络

每个节点都构建flannel网络插件

mkdir -p install-k8s/core
mv kubeadm-init.log kubeadm-config.yaml install-k8s/core
cd install-k8s/
mkdir -p plugin/flannel
cd plugin/flannel

wget https://raw.githubusercontent.com/coreos/flannel/master/Documentation/kube-flannel.yml
kubectl create -f kube-flannel.yml #可以通过flannel的资源清单创建相应文件

#查看pod运行状态(-n kube-system 指定名称空间-系统组件默认安装位置，必须指定,不加默认使用default的名称空间)
kubectl get pod -n kube-system
#可以查看到flannel组件运行了

#现在再查看节点
kubectl get nodes
NAME　　　　　　　　STATUS　　　　ROLES　　　　AGE　　　　VERSION
k8s-master01　　　Ready　　　master　　　 4m13s　　　v1.15.1

结构图：

Kubernetes 遇见高性能计算 kubernetes master高可用_初始化_11