如何排查K8s Scheduler在調度pod過程中遺漏部分節點的問題

發布時間：2021-11-19 11:16:07 來源：億速云閱讀：203 作者：iii 欄目：云計算

# 如何排查Kubernetes Scheduler在調度Pod過程中遺漏部分節點的問題

## 引言

Kubernetes作為當前最流行的容器編排平臺，其調度器（Scheduler）負責將Pod分配到合適的節點上運行。但在實際生產環境中，我們經常會遇到Scheduler未能正確評估所有可用節點的情況，導致部分符合條件的節點被意外忽略。這類問題可能由多種因素引起，包括但不限于：

- 節點資源不足
- 節點標簽不匹配
- 污點（Taint）與容忍（Toleration）配置問題
- 調度器策略配置錯誤
- 系統組件異常

本文將系統性地介紹排查這類問題的完整方法論，包含理論基礎、工具使用和實踐案例。

---

## 一、理解Kubernetes調度流程

### 1.1 調度器核心工作流程
```go
// 偽代碼表示調度流程
for pod := range unscheduledPods {
    nodes := GetAllNodes()
    feasibleNodes := Filter(pod, nodes)  // 過濾階段
    prioritizedNodes := Score(feasibleNodes)  // 評分階段
    selectedNode := Select(prioritizedNodes)
    Bind(pod, selectedNode)
}

1.2 關鍵調度階段

過濾階段（Filtering）：
- 檢查節點資源是否滿足requests
- 驗證節點Selector與Pod Affinity/Anti-affinity
- 檢查污點與容忍配置
評分階段（Scoring）：
- 根據資源平衡策略打分
- 考慮親和性權重
- 應用自定義調度策略

二、常見問題分類與癥狀

2.1 資源相關遺漏

典型表現：節點有足夠allocatable資源但未被選中

檢查要點：


kubectl describe node <node-name> | grep -A 10 Allocatable
kubectl get pod -A -o wide | grep <node-name>

2.2 標簽與選擇器不匹配

診斷命令：


kubectl get nodes --show-labels
kubectl get pod <pod-name> -o yaml | grep nodeSelector -A 5

2.3 污點與容忍問題

排查方法：


kubectl describe node | grep Taints
kubectl get pod <pod-name> -o yaml | grep -i toleration -A 3

2.4 調度策略限制

檢查方向：
- 查看Predicates配置
- 檢查Priority Functions
- 驗證自定義調度插件

三、系統化排查方法論

3.1 基礎信息收集

獲取調度器日志：

kubectl logs -n kube-system <scheduler-pod> --v=5 | grep -i "filtering"

檢查事件記錄：

kubectl get events --sort-by=.metadata.creationTimestamp

3.2 調度過程模擬分析

使用kubectl describe獲取調度決策詳情：

kubectl describe pod <pending-pod> | grep -i events -A 20

3.3 高級診斷工具

調度器性能分析：

curl http://localhost:10251/debug/pprof/profile -o scheduler.pprof

使用Scheduler Framework日志： “`yaml apiVersion: kubescheduler.config.k8s.io/v1beta2 kind: KubeSchedulerConfiguration profiles:
- schedulerName: default-scheduler pluginConfig:
  - name: Filter args: loggingVerbosity: 5
”`

四、典型場景案例解析

4.1 案例一：節點資源碎片化

現象：節點顯示有足夠內存但Pod無法調度
根因：內存碎片導致無法分配連續內存塊
解決方案：

kubectl top node
kubectl describe node | grep -A 10 "Allocated resources"

4.2 案例二：Pod拓撲約束沖突

錯誤配置：

affinity:
  podAntiAffinity:
    requiredDuringSchedulingIgnoredDuringExecution:
      - labelSelector:
          matchLabels:
            app: web
        topologyKey: kubernetes.io/hostname

4.3 案例三：自定義調度器沖突

診斷步驟： 1. 檢查調度器配置 2. 驗證擴展點注冊 3. 分析調度器插件日志

五、深度調試技巧

5.1 調度器緩存檢查

kubectl get --raw /debug/api/v1/scheduler_cache | jq .

5.2 使用調度器跟蹤

// 示例跟蹤配置
tracing:
  endpoint: jaeger-collector:14268
  samplingRatePerMillion: 1000

5.3 關鍵指標監控

scheduler_pending_pods
scheduler_scheduling_attempt_duration_seconds
scheduler_framework_extension_point_duration_seconds

六、預防與最佳實踐

6.1 定期維護建議

節點資源碎片整理
調度策略評審會議
調度器版本升級規劃

6.2 配置檢查清單

- [ ] 驗證節點資源報告準確性
- [ ] 檢查Pod QoS配置
- [ ] 審核Affinity規則
- [ ] 驗證污點配置

6.3 自動化驗證方案

apiVersion: batch/v1
kind: Job
metadata:
  name: scheduler-test
spec:
  template:
    spec:
      containers:
      - name: test
        image: busybox
        resources:
          requests:
            memory: "1Gi"
      tolerations: [...]

結語

通過系統化的排查方法，結合Kubernetes提供的豐富診斷工具，我們可以有效解決調度器節點遺漏問題。建議建立常態化的調度健康檢查機制，并持續關注調度器的新特性發展。當遇到復雜場景時，可考慮使用自定義調度插件來滿足特殊業務需求。

注：本文所有命令基于Kubernetes 1.25+版本，不同版本可能存在參數差異。 “`

這篇文章包含了： 1. 完整的排查方法論框架 2. 具體命令和配置示例 3. 常見案例分析 4. 深度調試技巧 5. 預防性建議 6. 版本兼容性說明

可根據實際環境需求調整具體參數和案例細節。建議配合實際集群數據進行驗證測試。

向AI問一下細節