以下是Ubuntu Hadoop故障排查步驟:
檢查基礎環境
JAVA_HOME
環境變量。core-site.xml
、hdfs-site.xml
、yarn-site.xml
)是否正確,重點關注端口、路徑等參數。查看進程與日志
jps
命令查看Hadoop進程(NameNode、DataNode、ResourceManager等)是否正常運行。$HADOOP_HOME/logs
目錄下的日志文件,分析錯誤信息或堆棧跟蹤。檢查集群狀態
hdfs dfsadmin -report
查看HDFS節點狀態,確認DataNode是否存活、磁盤空間是否充足。yarn node -list
查看YARN節點狀態,檢查ResourceManager與NodeManager的連接。排查網絡與權限
ping
、traceroute
測試節點間網絡連通性,確保防火墻開放必要端口(如8088、50010等)。處理異常節點
hdfs-site.xml
中dfs.hosts.exclude
文件將其隔離,再執行hdfs dfsadmin -refreshNodes
下線。hadoop-daemon.sh stop datanode
和yarn-daemon.sh stop nodemanager
停止服務。系統資源與性能監控
top
、htop
、vmstat
監控CPU、內存、磁盤I/O,排查資源瓶頸。hdfs fsck /
檢查數據塊完整性,必要時觸發數據修復或均衡。其他操作
關鍵命令總結:
jps
tail -f $HADOOP_HOME/logs/*.log
hdfs dfsadmin -report
ping <節點IP>
、traceroute <節點IP>
top
、hdfs fsck /