在Ubuntu上排查HDFS故障可參考以下步驟:
查看集群狀態
hdfs dfsadmin -report 查看DataNode數量、健康狀態及存儲容量。分析日志文件
/var/log/hadoop-hdfs/hadoop-*-namenode-*.log。/var/log/hadoop-hdfs/hadoop-*-datanode-*.log。tail -f 或 grep 過濾關鍵錯誤(如WARN/ERROR級別)。檢查配置文件
core-site.xml、hdfs-site.xml 中參數正確(如 fs.defaultFS、dfs.replication)。排查網絡與硬件
ping 和 netstat 檢查節點間網絡連通性,確保端口(如50070、8020)開放。df -h 確認DataNode磁盤空間充足,無壞道。處理數據一致性問題
hdfs fsck / -files -blocks -locations 檢查損壞塊,刪除或修復。hdfs dfsadmin -setReplication 調整副本數。應對特殊異常
hdfs dfsadmin -safemode leave 退出(需先修復問題)。hadoop-env.sh 中 HADOOP_NAMENODE_OPTS)。重啟服務
sudo service hadoop-hdfs-namenode restart
sudo service hadoop-hdfs-datanode restart
(需先備份數據)。尋求社區支持
注意:操作前建議備份重要數據,謹慎執行刪除或格式化操作。