Kubernetes调度程序负责确定您的Pod在集群中的部署位置。这听起来很简单,但是实际上却相当复杂!

调度器的工作原理

这里我们就一起来理解一下调度器是如何工作的吧。


图:Kubernetes调度器是怎么工作的?

每次创建Pod时,它会被添加到调度器(Scheduler)队列中。调度程序通过两个阶段逐个处理Pod:

调度阶段(scheduling phase) - 我应该选择哪个节点?

绑定阶段(binding phase) - 让我们将这个Pod所属节点的信息写入数据库


图:当执行kubectl apply -f时,yaml文件内容将被传递给k8s API


图:deployment定义被存入etcd中


图:controller mananger得知有一个新的deployment,该deployment创建了一个处于pending状态的pod


图:pod创建后就被加入调度器队列,调度器通过两个阶段为pod选择运行节点

调度阶段也分为两部分。调度器:

过滤相关节点(使用一组被称为谓词(predicate)的函数)

排列其余节点(使用一组被称为优先级(priority)的函数)

让我们举个例子。 比如,你要部署一些对GPU有需求的Pod。你将Pod提交给集群,然后:

调度器过滤掉所有不具有GPU的节点;

调度器对其余节点进行排名,并选择利用率最低的节点;

将pod调度到该节点上运行。


图:集群一些节点具有GPU


图:一旦你要部署对GPU有需求的pod,调度器会过滤掉没有GPU的节点


图:过滤后,调度器对其余节点进行打分排名


图:选出最佳节点后,你的pod将在那个节点上被创建

截至目前,过滤阶段有13个谓词。这是13个函数,用于确定调度器是否排除该节点作为Pod的可能目标节点。

计分阶段也有13个priority函数。这13个函数决定如何对节点评分和排名。


图:过滤阶段有13个谓词函数


图:打分阶段有13个优先级函数

如何影响调度器的决策?

nodeSelector

节点亲和力(node affinity)

pod亲和力/反亲和力(pod affinity/anti-affinity)

taint和容忍度(toleration)

如何自定义调度器?

您可以为调度器编写插件。您可以在调度阶段自定义任何过滤和打分函数。 但是,绑定阶段尚未公开任何公共API。


图:扩展API和绑定阶段的内部API

其他学习资料

你还可以通过下面链接了解更多有关调度程序的信息: