以下是Ubuntu環境下HDFS的故障排查方法:
/var/log/hadoop-hdfs/
),搜索錯誤信息或異常堆棧。hdfs dfsadmin -report
查看節點健康、副本數等狀態,確認NameNode是否正常通信。core-site.xml
、hdfs-site.xml
等配置,確保參數(如fs.defaultFS
、副本數)正確。ping
測試節點間網絡,netstat
或ss
查看端口監聽狀態,確保防火墻未攔截HDFS端口(默認50070等)。df -h
檢查DataNode磁盤空間,top/htop
監控CPU/內存使用,確保資源充足。hdfs fsck /
檢測損壞塊,配合-delete
刪除無效塊或從備份恢復。hdfs dfsadmin -safemode leave
退出(謹慎操作)。dfs.namenode.fs-limits.min-block-size
。工具推薦:可使用Ganglia/Prometheus監控集群性能,或通過HDFS Web界面(NameNode默認端口9870)查看實時狀態。