在CentOS上部署Kubernetes(k8s)并進行故障排查時,可以遵循以下步驟:
kubectl get nodes
命令檢查節點狀態,確保所有節點正常運行。kubectl get pods --all-namespaces
命令獲取所有Pod的狀態。kubectl describe pod <pod_name>
查看詳細信息,以便深入排查問題。kubectl get events
命令查看集群中發生的事件,這些事件可能包含有關故障的線索。free -g
cat /proc/cpuinfo | grep "physical id" | sort | uniq | wc -l
dd
命令測試4k小文件讀寫速度。journalctl -xe | grep kubelet
tail -f /var/log/messages
dmesg -T
tail -f /sysvol/mariadb/mariadb_data/mysql-error.log
cannot allocate memory
或 no space left on device
錯誤,檢查是否存在內存泄露。/sys/fs/cgroup/memory/kubepods/memory.kmem.slabinfo
文件,判斷是否存在內存泄露。kubectl get pv
, kubectl get pvc
, 和 kubectl get storageclass
命令檢查存儲相關狀態。kubectl logs <pod_name> -c <container_name>
查看特定Pod中容器的日志輸出。通過以上步驟,可以系統地排查和解決在CentOS上部署的Kubernetes集群可能遇到的故障。根據具體情況,可能還需要進一步調查或采取其他措施。