在Linux上運行Hadoop任務通常涉及以下幾個步驟:
安裝Hadoop:
/usr/local/hadoop
。~/.bashrc
或~/.bash_profile
文件,添加以下行:export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
source ~/.bashrc
或source ~/.bash_profile
。配置Hadoop:
$HADOOP_HOME/etc/hadoop
目錄下。core-site.xml
、hdfs-site.xml
、mapred-site.xml
和yarn-site.xml
。格式化HDFS(如果是第一次啟動):
hdfs namenode -format
啟動Hadoop集群:
start-dfs.sh
start-yarn.sh
上傳數據到HDFS:
hadoop fs -put
命令將本地文件上傳到HDFS:hadoop fs -put /path/to/local/file /path/to/hdfs/directory
運行Hadoop任務:
hadoop jar
命令運行MapReduce作業:hadoop jar /path/to/hadoop-mapreduce-examples.jar WordCount /path/to/hdfs/input /path/to/hdfs/output
WordCount
是MapReduce程序的一個示例,它計算文本文件中的單詞數量。/path/to/hdfs/input
是輸入數據的HDFS路徑,/path/to/hdfs/output
是輸出結果的HDFS路徑。監控任務:
http://<resourcemanager-host>:8088
來查看。停止Hadoop集群:
stop-yarn.sh
stop-dfs.sh
請注意,這些步驟假設你已經有了一個配置好的Hadoop集群。如果你是在單機上運行Hadoop,你可能需要調整配置文件以適應單節點環境。此外,根據你的具體需求,可能還需要進行其他的配置和優化。