排查 Ubuntu 上的 Hadoop 故障可以按照以下步驟進行:
檢查日志文件:
$HADOOP_HOME/logs
目錄下。檢查這些日志文件,特別是 hadoop-<username>-namenode-<hostname>.log
、hadoop-<username>-datanode-<hostname>.log
、hadoop-<username>-secondarynamenode-<hostname>.log
等,以獲取錯誤信息和異常堆棧跟蹤。驗證配置文件:
core-site.xml
、hdfs-site.xml
、yarn-site.xml
和 mapred-site.xml
)都是正確的,并且符合你的集群配置。特別注意 fs.defaultFS
、dfs.replication
、yarn.resourcemanager.hostname
等關鍵屬性。檢查 HDFS 狀態:
hdfs dfsadmin -report
命令來檢查 HDFS 的狀態,包括 NameNode 和 DataNode 的狀態。hdfs fsck /
命令來檢查文件系統的健康狀況。檢查 YARN 狀態:
yarn node -list
命令來查看集群中所有節點的狀態。yarn application -list
或 yarn application -status <application_id>
來查看正在運行的應用程序的狀態。網絡和防火墻設置:
資源使用情況:
top
、htop
、df -h
、free -m
等命令來檢查系統的資源使用情況,包括 CPU、內存、磁盤空間等。Java 環境:
JAVA_HOME
環境變量已經設置。重啟服務:
查看系統日志:
/var/log/syslog
或 /var/log/messages
,以查找可能與 Hadoop 故障相關的信息。使用診斷工具:
hadoop checknative -a
可以用來檢查本地庫的支持情況。咨詢社區:
在進行故障排查時,記得記錄你的操作和發現的信息,這樣可以幫助你更快地定位問題所在。