在Ubuntu上進行Hadoop性能測試可參考以下步驟,結合工具與命令完成:
jps
命令檢查NameNode、DataNode等進程狀態。hadoop jar hadoop-mapreduce-client-jobclient.jar TestDFSIO -clean
清理歷史數據)。TestDFSIO(Hadoop自帶):測試HDFS讀寫性能。
hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-*.jar TestDFSIO -write -nrFiles 10 -fileSize 100
(生成10個100MB文件并寫入)。hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-*.jar TestDFSIO -read -nrFiles 10 -fileSize 100
(讀取已寫入的文件)。TestDFSIO_results.log
中,可查看吞吐量、延遲等指標。TeraSort(Hadoop自帶):測試排序性能,分為生成數據、排序、驗證三步。
hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples.jar teragen 100000000 /testDir/input
(生成1億條數據)。hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples.jar terasort /testDir/input /testDir/output
。hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples.jar teravalidate /testDir/output /testDir/validation
。HiBench(第三方框架):支持多種Hadoop基準測試(如WordCount、TeraSort、DFSIO增強版)。
git clone https://github.com/intel-hadoop/HiBench.git
,配置conf/hibench.conf
后運行./run-hadoopbench.sh
。-nrFiles
(文件數量)和-fileSize
(文件大?。┠M高負載,觀察集群吞吐量與延遲。top
、htop
或Ganglia工具,監控CPU、內存、磁盤I/O使用情況,定位瓶頸。dfs.blocksize
、yarn.scheduler.capacity
),重復測試驗證優化效果。參考來源: