Kafka監控需重點關注以下關鍵指標,覆蓋集群、生產者、消費者及ZooKeeper等組件,確保系統穩定運行:
UnderReplicatedPartitions
(未同步分區數,>0表示副本異常)、ISRShrinksPerSec/ISRExpandsPerSec
(ISR收縮/擴展頻率)。ActiveControllerCount
(活躍Controller數量,正常應為1)、OfflinePartitionsCount
(離線分區數,>0需排查)。MessagesInPerSec
(消息吞吐量)、BytesIn/BytesOutPerSec
(流量監控)、RequestHandlerAvgIdlePercent
(Handler空閑率,過低表示壓力大)。record-send-rate
(消息發送速率)、request-latency-avg
(請求平均延遲)、batch-size-avg
(批量大?。?。record-error-rate
(錯誤率)、retries
(重試次數),需關注acks
配置是否為all
以保證數據不丟失。records-lag
(消費滯后量,>0表示積壓,需告警)、fetch-rate
(拉取速率)、commit-rate
(Offset提交頻率)。poll-latency-avg
(拉取延遲,>100ms需關注)、heartbeat-rate
(心跳頻率,異??赡苡|發重平衡)。LogEndOffset
(最新位點)、LogStartOffset
(起始位點)、Size
(分區占用磁盤大?。?。IsrShrinksPerSec
(ISR縮減頻率,頻繁收縮需排查Follower異常)。ZookeeperRequestLatency
(請求延遲)、ZookeeperOutstandingRequests
(未處理請求數)。工具推薦:通過Prometheus+Grafana采集JMX指標,結合Kafka自帶命令行工具(如kafka-consumer-groups.sh
)輔助驗證。
以上指標覆蓋Kafka核心運行狀態,可根據業務場景調整告警閾值,例如對records-lag
和UnderReplicatedPartitions
設置嚴格告警規則。