当前位置：首页 > 问答 > 正文

Kubernetes调度器到底怎么挑选节点和安排任务的那些事儿

度秀梅
问答
2026-01-17 01:19:07
1

主要综合自Kubernetes官方文档关于调度器的章节、以及《Kubernetes权威指南》等经典技术书籍中对调度器工作原理的阐述）

Kubernetes调度器的核心任务，就像一个非常智能的“工作分配员”，当您提出要运行一个任务（比如一个Pod）时，您可能不会指定它具体在哪台机器（节点）上运行，这时候，调度器就出场了，它的职责就是从集群里一大堆机器中，为这个任务挑选一个最合适的“家”。

整个过程可以分解为两个主要的步骤：筛选和打分。

第一步：筛选——排除不合格的节点

筛选，顾名思义，就是设置一系列硬性条件，把那些根本不符合要求的机器先刷掉，调度器会检查集群中的所有节点，看看哪些节点连最基本的条件都满足不了，如果有一个条件不满足，这个节点就会被直接排除,不再进入下一轮考虑。

筛选的依据是什么呢？主要来自两个方面：

Pod自己提出的要求：您在定义Pod的时候，可以给它设定一些“规矩”。
- 资源需求：Pod会说明它需要多少CPU和内存，调度器会检查每个节点上当前可用的CPU和内存资源是否足够，如果一台机器剩下的资源不够这个Pod用的，它就会被筛掉，这就像您要搬一个大家具，小轿车肯定装不下,所以直接就不考虑小轿车了。
- 节点选择器：您可以给Pod打上标签，同时给节点也打上标签，Pod可以指定它只愿意运行在拥有特定标签的节点上，Pod可以要求必须运行在“磁盘类型=SSD”或者“GPU=有”的机器上。
- 亲和性与反亲和性：这是更高级、更灵活的规则，亲和性是说Pod“喜欢”和某些Pod待在一起（或者“喜欢”某种节点），反亲和性则相反，是“讨厌”和某些Pod待在一起，一个前端服务Pod可能希望和它的缓存服务Pod离得近一点（亲和性）；而为了高可用，同一个应用的多个副本可能不希望全部挤在同一台机器上（反亲和性）,防止机器一挂全挂了。
节点本身的状态：调度器也会主动检查节点的健康状况。
- 如果一台节点报告自己磁盘空间不足、网络不可用、或者不是就绪状态,调度器就不会把新的Pod安排上去。
- 还有一些是Kubernetes系统自己设置的“污点”，节点可以有一个“污点”，意思是“闲人免进”，除非Pod明确表示能“容忍”这个污点，否则也会被筛掉，这常用于那些有特殊用途的节点,比如只让特定的系统组件运行在上面。

经过这一轮严格的筛选，大部分不合适的节点都被淘汰了，剩下的就是一个“合格节点”的候选列表。

第二步：打分——在合格节点中选出最优解

如果经过筛选，一个合格的节点都没有，那么很抱歉，这个Pod就会处于“待定”状态，直到有符合条件的节点出现，如果只有一个合格的节点，那没得选，就是它了，但如果有多个节点都符合要求，那该怎么办呢？这时候就进入打分环节。

打分就是调度器给每一个合格的节点计算一个分数，分数最高的节点就是最终的“幸运儿”，打分策略是一系列评分规则的组合,常见的规则包括：

最少资源请求优先级：调度器会优先选择那些分配资源后，剩余资源还最多的节点，这有点像尽量把行李均匀地塞进车的后备箱，避免有的车塞到爆炸，有的车还空荡荡的,这样能让整个集群的资源分配更均衡。
镜像本地性优先级：如果节点上已经存在Pod运行所需的容器镜像，它就会获得更高的分数，因为这样就不用花时间从网络上下载镜像了,Pod能启动得更快。
节点亲和性优先级：这比筛选阶段的节点选择器更灵活，它不再是“硬性规定”，而是“偏好”，Pod可以表达“我优先选择带有‘zone=us-east-1a’标签的节点”，但如果实在没有，别的节点也行,这种偏好会在打分时体现出来。
Pod间亲和性/反亲和性优先级：和节点亲和性类似，这也是对筛选阶段硬性规则的软化，通过打分来实现“尽量在一起”或“尽量分开”的偏好。

调度器会运行所有这些评分规则，对每个节点算出一个总分,然后选出分数最高的那个节点。

最终绑定

一旦选定了最终节点，调度器的工作还没完全结束，它需要把这个决定“通知”给API服务器，这个过程叫做“绑定”，API服务器会记录下“Pod A将被调度到节点B”这个信息，节点B上的一个叫“kubelet”的代理程序会监听到这个绑定信息，它就会真正接手，在本节点上拉取镜像、创建容器,把Pod运行起来。

至此，整个调度过程才圆满结束，简单总结就是：先根据硬指标筛掉不合格的，再通过软指标在合格的里面挑一个最好的，最后通知目标机器去执行，这一切都是自动完成的，保证了集群的资源能够被高效、合理地利用。

Kubernetes调度器到底怎么挑选节点和安排任务的那些事儿