K8s Pod 调度疑难杂症：从容应对部署失败

字数: (8760)

阅读: (1693)

2026-04-05 23:41:09

内容摘要：K8s Pod 调度疑难杂症：从容应对部署失败,

在 Kubernetes (K8s) 集群中，Pod 调度失败是开发人员和运维工程师经常遇到的问题。一个原本应该顺利运行的 Pod 停留在 Pending 状态，迟迟无法启动，影响应用服务的正常运行。本文将深入探讨 Kubernetes Pod 调度失败的常见原因，并提供相应的排查和解决方案。

资源不足：CPU、内存和自定义资源

CPU 和内存资源限制

这是最常见的 Pod 调度失败原因之一。当集群中的节点没有足够的 CPU 或内存资源来满足 Pod 的需求时，调度器将无法找到合适的节点来运行 Pod。

可以通过 kubectl describe pod <pod-name> 命令查看 Pod 的事件信息，关注类似 Insufficient cpu 或 Insufficient memory 的错误提示。例如：

Events:
  Type     Reason            Age   From               Message
  ----     ------            ----  ----               -------
  Warning  FailedScheduling  2m    default-scheduler  0/3 nodes are available: 3 Insufficient cpu.

解决方案包括：

增加节点数量：扩容集群，增加可用资源。
调整 Pod 的资源请求：降低 Pod 的 resources.requests 字段值，使其更符合实际需求。需要注意的是，降低资源请求可能会影响 Pod 的性能。
使用资源配额（Resource Quotas）：在命名空间级别限制资源使用，防止单个 Pod 占用过多资源，导致其他 Pod 无法调度。

apiVersion: v1
kind: ResourceQuota
metadata:
  name: cpu-quota
  namespace: my-namespace
spec:
  hard:
    requests.cpu: "2"
    limits.cpu: "4"

自定义资源

除了 CPU 和内存，Kubernetes 还支持自定义资源（Custom Resources），例如 GPU、FPGA 等。如果 Pod 需要使用自定义资源，但集群中没有满足条件的节点，也会导致调度失败。

同样可以使用 kubectl describe pod 命令查看事件信息，关注与自定义资源相关的错误提示。

解决方案：

确保节点已正确配置自定义资源：例如，安装 NVIDIA device plugin 以支持 GPU 资源。
使用 Node Selector 或 Node Affinity：将 Pod 调度到具有所需自定义资源的特定节点上。

apiVersion: v1
kind: Pod
metadata:
  name: gpu-pod
spec:
  containers:
  - name: my-container
    image: my-gpu-image
    resources:
      limits:
        nvidia.com/gpu: 1  # 请求 1 个 GPU
  nodeSelector:
    gpu: "true" #调度到有gpu标签的节点

污点（Taints）和容忍度（Tolerations）

污点（Taints）用于标记节点，表示该节点不应该运行某些类型的 Pod。容忍度（Tolerations）用于允许 Pod 调度到具有特定污点的节点上。如果 Pod 没有容忍某个节点的污点，则无法被调度到该节点上。

可以使用 kubectl describe node <node-name> 命令查看节点的污点信息。

kubectl describe node node1

解决方案：

为 Pod 添加相应的容忍度：允许 Pod 调度到具有特定污点的节点上。

apiVersion: v1
kind: Pod
metadata:
  name: my-pod
spec:
  containers:
  - name: my-container
    image: my-image
  tolerations:
  - key: "node.kubernetes.io/unreachable" #污点key
    operator: "Exists" #操作符
    effect: "NoExecute" #生效方式

移除节点的污点：允许所有 Pod 调度到该节点上（慎用）。

节点选择器（Node Selector）和节点亲和性（Node Affinity）

节点选择器（Node Selector）和节点亲和性（Node Affinity）用于将 Pod 调度到具有特定标签的节点上。如果集群中没有满足条件的节点，则 Pod 无法被调度。

可以使用 kubectl get nodes --show-labels 命令查看节点的标签信息。

解决方案：

确保集群中存在满足条件的节点：为节点添加相应的标签。
调整 Pod 的节点选择器或节点亲和性：使其更符合集群的实际情况。

apiVersion: v1
kind: Pod
metadata:
  name: my-pod
spec:
  containers:
  - name: my-container
    image: my-image
  nodeSelector:
    disktype: ssd #指定调度到带有disktype=ssd标签的节点

Pod 间亲和性（Pod Affinity）和反亲和性（Pod Anti-Affinity）

Pod 间亲和性（Pod Affinity）用于将某些 Pod 调度到与特定 Pod 位于同一节点或同一区域。Pod 间反亲和性（Pod Anti-Affinity）用于避免将某些 Pod 调度到与特定 Pod 位于同一节点或同一区域。如果集群中没有满足条件的节点，则 Pod 无法被调度。

解决方案：

调整 Pod 的亲和性或反亲和性规则：使其更符合集群的实际情况，例如放宽限制条件。
检查标签选择器是否正确：确保亲和性和反亲和性规则能够正确匹配到目标 Pod。

其他常见问题

网络问题：Pod 无法连接到所需的网络资源，例如 DNS 服务器、Service 等。需要检查网络配置是否正确。
存储问题：Pod 无法挂载所需的存储卷。需要检查存储卷的配置是否正确。
镜像拉取失败：Pod 无法拉取所需的镜像。需要检查镜像仓库的配置是否正确，以及镜像是否存在。

实战避坑经验总结

监控 Pod 调度事件：及时发现调度失败问题，并进行分析和处理。
合理设置资源请求和限制：避免资源浪费和资源竞争。
使用标签和选择器进行精细化调度：提高资源利用率和应用性能。
定期检查集群配置：确保集群配置正确，避免潜在问题。
了解 Kubernetes 的底层原理：有助于更好地理解和解决调度问题。例如，深入理解 kube-scheduler 的工作机制，熟悉各种调度算法。

通过以上方法，可以有效地排查和解决 Kubernetes Pod 调度失败问题，确保应用服务的稳定运行。实际生产环境中，问题往往更加复杂，需要结合具体情况进行分析和解决。例如，在高并发场景下，Pod 调度失败可能与 CNI 插件的性能瓶颈有关，需要针对性地进行优化。另外，如果集群规模较大，可以考虑使用 Kubernetes 的高级调度特性，如优先级调度（PriorityClass）和抢占（Preemption），以进一步提高资源利用率和应用性能。

K8s Pod 调度疑难杂症：从容应对部署失败

转载请注明出处: 代码一只喵

本文的链接地址: http://m.acea5.store/blog/459579.SHTML

本文最后发布于2026-04-05 23:41:09，已经过了21天没有更新，若内容或图片失效，请留言反馈

推荐阅读

(43)

React.memo 失效排查指南：性能优化反思与实战技巧 C++ 从入门到进阶：2025年8月10日学习笔记与实践指南

您可能对以下文章感兴趣

老王隔壁 5 天前
写的不错，但是感觉少了些实际配置文件的案例，比如如何用 YAML 定义 Node Affinity 的例子。
冬天里的一把火 4 天前
Pod 间亲和性和反亲和性这部分确实比较复杂，有没有更深入一些的实践指导？
夏天的风 4 天前
污点和容忍度那块儿很有用，之前遇到过，查了半天才搞明白，感谢分享！
非酋本酋 1 天前
有没有关于 Kubernetes 调度器本身的一些调优建议？感觉默认的调度策略有时候不够智能。
夜猫子 1 天前
污点和容忍度那块儿很有用，之前遇到过，查了半天才搞明白，感谢分享！