1. kubectl(官方必備工具)
kubectl是Kubernetes的核心命令行工具,可用于直接查詢集群資源狀態、排查問題。常用命令包括:
kubectl get pods --all-namespaces
;default
命名空間):kubectl describe pod <pod-name> -n default
;kubectl get nodes
(STATUS
列為Ready
表示正常);kubectl get events --all-namespaces
;kubectl get deployments --all-namespaces
。1. Kubernetes Dashboard(官方Web UI)
Kubernetes Dashboard是官方提供的Web界面,支持實時查看集群資源(Pod、Deployment、Service等)、查看日志、執行命令。安裝步驟:
kubectl apply -f https://raw.githubusercontent.com/kubernetes/dashboard/v2.7.0/aio/deploy/recommended.yaml
;kubectl -n kube-system describe secret $(kubectl -n kube-system get secret | grep admin-user | awk '{print $1}')
;https://<節點IP>:30001
,輸入Token登錄。2. Grafana(可視化指標分析)
Grafana與Prometheus結合,可創建自定義儀表盤,展示CPU、內存、網絡等指標的趨勢圖。安裝步驟:
helm repo add grafana https://grafana.github.io/helm-charts && helm install grafana grafana/grafana
;http://<節點IP>:3000
,默認用戶admin
),添加數據源時填寫Prometheus地址(如http://prometheus-operated.monitoring.svc.cluster.local:9090
);3. K9s(終端可視化工具)
K9s是基于終端的全屏管理工具,適合習慣命令行的用戶,支持實時監控Pod、Deployment、Service等資源的狀態,無需打開Web界面。安裝步驟:
linux_amd64
),賦予執行權限:chmod +x k9s
;./k9s
,默認會連接本地Kubernetes集群(需配置~/.kube/config
)。1. Prometheus + Alertmanager(指標收集與告警)
Prometheus是開源的時序數據庫,用于收集Kubernetes集群的指標(如Pod CPU使用率、節點內存剩余量);Alertmanager用于根據規則發送告警(如郵件、Slack)。安裝步驟:
kubectl apply -f https://raw.githubusercontent.com/prometheus-operator/prometheus-operator/master/bundle.yaml
;alert.rules
文件,添加規則后應用到集群;alertmanager.yml
文件,設置SMTP服務器等信息。1. ELK Stack(Elasticsearch + Logstash + Kibana)
ELK是開源的日志管理方案,用于收集、存儲、分析Kubernetes集群的日志(如Pod應用日志、系統日志)。安裝步驟:
kubectl apply -f https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-7.17.0-linux-x86_64.tar.gz
;kubectl apply -f https://artifacts.elastic.co/downloads/logstash/logstash-7.17.0-linux-x86_64.tar.gz
;kubectl apply -f https://artifacts.elastic.co/downloads/kibana/kibana-7.17.0-linux-x86_64.tar.gz
;pipeline.conf
文件,設置輸入源為Kubernetes日志(如/var/log/containers/*.log
),輸出到Elasticsearch;http://<節點IP>:5601
,創建索引模式后即可搜索、分析日志。1. Datadog(全棧監控)
Datadog是云原生監控平臺,支持監控Kubernetes集群的應用性能、基礎設施(服務器、網絡)、日志等,提供實時告警、分布式追蹤等功能。安裝步驟:
kubectl apply -f https://raw.githubusercontent.com/DataDog/datadog-agent/master/Dockerfiles/agent/k8s/daemonset.yaml
;2. Sysdig(容器安全與監控)
Sysdig提供容器監控、安全分析和故障排除功能,支持查看容器內的系統調用、網絡流量,檢測異常行為(如容器逃逸)。安裝步驟:
helm repo add sysdig https://sysdig-charts.storage.googleapis.com && helm install sysdig sysdig/sysdig
;values.yaml
文件,設置API Key(從Sysdig控制臺獲?。?,啟用安全監控(如Falco規則);https://app.sysdigcloud.com
,查看容器性能、安全事件。