在CentOS中排查HDFS故障通常需要遵循一系列的故障排除步驟。以下是一個系統性的故障排查流程:
systemctl status hadoop-hdfs-namenode
和 systemctl status hadoop-hdfs-datanode
檢查HDFS服務的狀態。如果服務未啟動,可以使用 systemctl start hadoop-hdfs-namenode
和 systemctl start hadoop-hdfs-datanode
啟動服務。/var/log/hadoop-hdfs/namenode-<hostname>.log
。/var/log/hadoop-hdfs/datanode-<hostname>.log
。/var/log/hadoop-hdfs/secondarynamenode-<hostname>.log
。通過查看這些日志文件,可以獲取關于錯誤的詳細信息,例如權限問題、磁盤故障、網絡問題等。
ping
命令測試節點之間的連通性。hdfs-site.xml
和 core-site.xml
,確保配置正確。特別注意以下配置項:
fs.defaultFS
dfs.namenode.rpc-address
dfs.datanode.data.dir
dfs.namenode.http-address
hdfs dfsadmin -printTopology
查看機架感知拓撲。top
或 htop
命令檢查集群中各個節點的資源使用情況,如CPU、內存和磁盤空間。iptables -L
firewall-cmd --list-all
firewall-cmd --add-port <port>/tcp --permanent
firewall-cmd --reload
hdfs dfs -ls /path/to/directory
hdfs dfs -stat %h /path/to/file
hdfs dfs -rm -r /path/to/directory
hdfs dfs -bash
hdfs dfsadmin -safemode leave
退出安全模式。通過上述步驟,可以系統地排查HDFS在CentOS上的故障。如果問題仍然存在,建議查看相關日志文件和系統信息,以便進一步定位問題。