背景介绍
sysctl是一个允许改变正在运行中的Linux系统内核参数的接口。可以通过sysctl修改Linux系统内核中的TCP/IP 堆栈和虚拟内存系统的高级选项,而且不需要重新启动Linux系统,就可以实现优化Linux系统和提高应用进程运行性能。
通过Linux系统中的/proc虚拟文件系统来实现动态配置Linux系统内核参数,在/proc/sys目录下有Linux系统绝大多数的内核参数,这些内核参数可以在Linux系统运行时进行修改,并且不需要重新启动Linux系统便可以立刻生效,但是这种修改在重新启动Linux系统后便会失效,要是想永久生效的话,需要更改配置文件/etc/sysctl.conf中相应的内核参数配置项。
可以通过下面命令获取sysctl可以操作的所有内核参数配置项和已经配置的数值:
# sysctl –a
这些内核参数主要包括下面几类配置项:
• 全局内核配置项:以“kernel.”为配置项前缀,举例:
kernel.shmmax
kernel.threads-max
• 网络配置项:以“net.”为配置项前缀,举例:
net.ipv4.ipfrag_low_thresh
net.ipv4.ipfrag_high_thresh
• 虚拟内存配置项:以“vm.”为配置项前缀,举例:
vm.swappiness
vm.dirty_ratio
• 设备专用配置项:以“dev.”为配置项前缀,举例:
dev.raid.speed_limit_max
dev.raid.speed_limit_min
• 文件系统专用配置项:以“fs.”为配置项前缀
fs.file-max
fs.file-nr = 3930 0 779703(已分配文件句柄的数目,已使用文件句柄的数目,文件句柄的最大数目,该文件是只读的,仅用于显示信息)
容器相关内核参数
上面介绍了通过sysctl可以操作Linux系统内核参数,在这些内核参数中,有些不但是操作系统全局级别的内核参数,还是命名空间级别的内核参数。对于容器来说,是通过命名空间实现隔离的,那么就意味着这些命名空间级别的参数是容器相关的内核参数。
Linux系统命名空间的分类如下:
命名空间级别的内核参数包括:
• kernel.shm*(内核中共享内存相关参数),举例:
kernel.shmall
kernel.shmmax
• kernel.msg*(内核中SystemV消息队列相关参数)
kernel.msgmnb
kernel.msgmni
• kernel.sem(内核中信号量参数)
kernel.sem
• fs.mqueue.*(内核中POSIX消息队列相关参数)
fs.mqueue. msg_max
fs.mqueue. msgsize_max
• net.*(内核中网络配置项相关参数)
net.ipv4.ipfrag_low_thresh
net.ipv4.ipfrag_high_thresh
新特性
因为sysctl可以修改命名空间级别的内核参数,所以在Kubernetes1.4中通过sysctl来配置POD中Linux内核参数的功能,通过修改POD中Linux内核参数,可以优化POD性能,提升POD中容器运行效率。在Kubernetes1.4中这还是一个阿尔法特性。
修改Linux内核参数存在安全风险,修改错误很可能会降低系统性能,甚至会引起系统崩溃,所以需要谨慎对待。在Kubernetes1.4中将命名空间级别的内核参数分成了两类,一类是安全的内核参数,一类是不安全的内核参数。所谓安全的命名空间级别内核参数,就是要能够实现相同节点上不同POD之间的完全隔离,要满足如下条件:
1. 不能对相同节点上其他POD产生任何影响
2. 不能对节点上操作系统健康造成影响
3. 不能在POD资源限制以外获取更多的CPU和内存资源
根据上面三个条件可以发现,大多数的命名空间级别内核参数都不是安全的。在Kubernetes1.4中,认为下面的命名空间级别内核参数是安全的:
1. kernel.shm_rmid_forced = 1(表示是否强制将共享内存和一个进程联系在一起,这样的话可以通过杀死进程来释放共享内存)
2. net.ipv4.ip_local_port_range =1024 65000(表示允许使用的端口范围)
3. net.ipv4.tcp_syncookies = 1(表示是否打开TCP同步标签,同步标签可以防止一个套接字在有过多试图连接时引起过载)
在Kubernetes以后的版本中,还会继续扩充安全的命名空间级别内核参数。在Kubernetes中,所有安全的命名空间级别内核参数默认都是启用状态的,所有不安全的命名空间级别内核参数默认都是禁用状态的,如果想设置不安全的内核参数,需要Kubernetes管理员手工启用。如果管理员没有手工启用不安全的内核参数,那么Kubernetes仍然会进行调度,将这些带有不安全内核参数的POD分配到节点上,但是这些POD在启动时会失败。
在启动kubelet时通过增加参数“experimental-allowed-unsafe-sysctls”来启用不安全的命名空间级别内核参数:
可以在POD配置文件中设置已经被启用的命名空间级别内核参数:
上面的配置文件在POD中设置了安全的命名空间级内核参数:kernel.shm_rmid_forced,并且在POD中设置了两个不安全的命名空间级内核参数:net.ipv4.route.min_pmte和kernet.msgmax。
在annotations中的“security.alpha.kubernetes.io/sysctls”参数上设置安全的命名空间级内核参数,在annotations中的“security.alpha.kubernetes.io/unsafe-sysctls”参数上设置不安全的命名空间级内核参数。
总结
Kubernetes1.4引入了配置命名空间级内核参数的功能,可以通过配置这些内核参数,提高容器运行性能,同时在安全方面进行了增强,提供了安全的命名空间级内核参数的功能,并在以后的版本中还会继续增加这些安全的命名空间级内核参数数量。为了方便管理员灵活配置命名空间级内核参数,还对不安全的命名空间级内核参数提供了手工开启和配置功能。但是由于这个新特性是阿尔法版本,只是用于研发使用的版本,所以在Kubernetes以后的版本中这个特性可能还会有比较大的变化。