在Linux環境下進行Hadoop故障排查,可以遵循以下步驟:
jps
命令查看Java進程是否正常運行,確保NameNode、DataNode、SecondaryNameNode、ResourceManager、NodeManager等進程都在運行。HADOOP_HOME/logs
目錄下。hdfs dfsadmin -report
命令查看HDFS的健康狀況和節點信息。yarn node -list
命令查看ResourceManager管理的NodeManager列表及其狀態。ping
和 traceroute
命令檢查集群節點之間的網絡連通性。core-site.xml
、hdfs-site.xml
、yarn-site.xml
和 mapred-site.xml
,確保所有配置項正確無誤。HADOOP_HOME
和 PATH
等環境變量設置正確。hdfs dfs -ls /
命令檢查HDFS根目錄下的文件和目錄。yarn application -list
命令查看正在運行的YARN應用程序。top
、htop
或 vmstat
命令監控CPU、內存和磁盤I/O的使用情況。df -h
、du -sh /path/*
、ls -lhS /path/ | head
等命令快速定位磁盤空間和使用情況。hdfs dfs -df -h
、yarn logs -applicationId
、kafka-topics.sh --describe --zookeeper localhost:2181
等命令專項檢查HDFS、YARN和Kafka的狀態。inode
耗盡、磁盤配額限制、僵尸進程占用、Docker容器日志等。通過以上步驟和技巧,可以系統地排查和解決Hadoop在Linux上的故障。根據具體情況,可能需要結合多種方法來定位和解決問題。