Kafka監控指標主要包括以下幾類:
Broker核心指標
- UnderReplicatedPartitions:處于復制狀態的partitions數量。
- ActiveControllerCount:活躍的controller數量。
- OfflinePartitionsCount:離線的partitions數量。
- UncleanLeaderElectionsPerSec:未清理領導選舉/每秒。
- BytesInPerSec:Kafka的吞吐量。
- BytesOutPerSec:Kafka的吞吐量。
- Disk usage:磁盤使用情況。
- CPU usage:CPU使用情況。
- 網卡入流量:機器網卡入流量。
- 網卡出流量:機器網卡出流量。
Producer核心指標
- 主要監控正常的機器指標和JVM指標,如磁盤使用情況、CPU使用情況等。
Consumer核心指標
- kafka_consumergroup_lag:每個消費者的消息延遲。
- 消費者組延遲等。
集群穩定性配置與監控最佳實踐
- 合理進行kafka實例配置,關注磁盤容量和峰值帶寬、消息保留時長、動態保留策略等。
- 設置日志配置參數以使日志易于管理。
- 充分利用Apache ZooKeeper。
- 注意主題配置。
- 使用并行處理。
- 帶著安全性思維配置和隔離Kafka。
- 通過提高限制避免停機。
- 保持低網絡延遲。
- 利用有效的監控和警報。
這些指標可以幫助運維人員及時發現和解決Kafka集群中的問題,確保系統的穩定運行。