在Linux環境下進行Hadoop故障排查,可以遵循以下步驟:
使用jps
命令:查看Java進程是否正常運行。
jps
應該能看到NameNode、DataNode、SecondaryNameNode、ResourceManager、NodeManager等進程。
查看Hadoop日志:
$HADOOP_HOME/logs
目錄下。使用hdfs dfsadmin -report
命令:查看HDFS的健康狀況和節點信息。
hdfs dfsadmin -report
檢查NameNode和DataNode的連接:
hdfs dfsadmin -report
查看DataNode的狀態。使用yarn node -list
命令:查看ResourceManager管理的NodeManager列表及其狀態。
yarn node -list
檢查ResourceManager和NodeManager的日志:
http://<resourcemanager-host>:8088
)。使用ping
和traceroute
命令:檢查集群節點之間的網絡連通性。
ping <node-ip>
traceroute <node-ip>
檢查防火墻設置:確保必要的端口(如8088、50010、50020等)在防火墻中是開放的。
core-site.xml
、hdfs-site.xml
、yarn-site.xml
和mapred-site.xml
:確保所有配置項正確無誤。HADOOP_HOME
和PATH
等環境變量設置正確。hdfs dfs -ls /
命令:檢查HDFS根目錄下的文件和目錄。yarn application -list
命令:查看正在運行的YARN應用程序。top
、htop
或vmstat
命令:監控CPU、內存和磁盤I/O的使用情況。通過以上步驟,可以系統地排查Linux環境下Hadoop集群的故障。根據具體情況,可能需要結合多種方法來定位和解決問題。