在 Ubuntu 上運行 Hadoop 任務,您需要遵循以下步驟:
安裝 Java(如果尚未安裝): Hadoop 需要 Java 運行環境。首先,請確保您的系統上已安裝 Java。您可以通過運行以下命令來檢查 Java 是否已安裝:
java -version
如果未安裝 Java,請使用以下命令安裝 OpenJDK:
sudo apt update
sudo apt install openjdk-11-jdk
下載并解壓 Hadoop: 訪問 Hadoop 官方網站(https://hadoop.apache.org/releases.html),下載適用于 Linux 的最新 Hadoop 版本。然后,在您的 Ubuntu 系統上解壓縮下載的文件:
wget https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-3.3.1/hadoop-3.3.1.tar.gz
tar -xzvf hadoop-3.3.1.tar.gz
sudo mv hadoop-3.3.1 /usr/local/hadoop
這將下載并解壓縮 Hadoop,然后將其移動到 /usr/local/hadoop
目錄。
配置 Hadoop 環境變量:
編輯 ~/.bashrc
文件,添加以下行:
export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64
export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
保存文件并運行 source ~/.bashrc
以應用更改。
配置 Hadoop:
在 $HADOOP_HOME/etc/hadoop
目錄下,您需要編輯一些配置文件以適應您的環境。主要配置文件包括:
core-site.xml
:配置 Hadoop 核心設置,例如默認文件系統。hdfs-site.xml
:配置 HDFS 設置,例如副本因子和數據存儲位置。mapred-site.xml
:配置 MapReduce 框架設置。yarn-site.xml
:配置 YARN 資源管理器設置。您可以根據 Hadoop 文檔(https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.html)為這些文件提供適當的配置。
格式化 HDFS: 在首次運行 Hadoop 之前,您需要格式化 HDFS。運行以下命令:
hdfs namenode -format
啟動 Hadoop 集群: 使用以下命令啟動 Hadoop 的所有服務:
start-dfs.sh
start-yarn.sh
運行 Hadoop 任務:
現在,您可以使用 hadoop jar
命令運行 Hadoop 任務。例如,要運行一個名為 wordcount.jar
的示例 JAR 文件,您可以執行以下命令:
hadoop jar /path/to/wordcount.jar input_directory output_directory
其中,input_directory
是輸入數據的目錄,output_directory
是輸出結果的目錄。
完成以上步驟后,您應該能夠在 Ubuntu 上成功運行 Hadoop 任務。如果遇到問題,請查看 Hadoop 日志以獲取詳細信息。