在Debian上運行Hadoop任務通常涉及以下幾個步驟:
安裝Java: Hadoop需要Java環境,因此首先需要安裝Java??梢允褂靡韵旅畎惭bOpenJDK:
sudo apt update
sudo apt install openjdk-11-jdk
下載并解壓Hadoop: 從Apache Hadoop官方網站下載最新版本的Hadoop,并解壓到你選擇的目錄中。例如:
wget https://downloads.apache.org/hadoop/common/hadoop-3.3.1/hadoop-3.3.1.tar.gz
tar -xzvf hadoop-3.3.1.tar.gz -C /usr/local/
配置Hadoop環境變量:
編輯/etc/profile
或~/.bashrc
文件,添加以下內容:
export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64
export HADOOP_HOME=/usr/local/hadoop-3.3.1
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
然后使配置生效:
source /etc/profile
配置Hadoop:
根據你的網絡環境和集群配置,編輯Hadoop的配置文件,通常位于$HADOOP_HOME/etc/hadoop
目錄下。主要需要配置的文件包括:
core-site.xml
:設置Hadoop的核心參數,如默認文件系統。hdfs-site.xml
:設置HDFS的參數。yarn-site.xml
:設置YARN的參數。mapred-site.xml
:設置MapReduce的參數。格式化HDFS: 在首次啟動Hadoop之前,需要對HDFS進行格式化:
hdfs namenode -format
啟動Hadoop集群: 啟動HDFS和YARN:
start-dfs.sh
start-yarn.sh
運行Hadoop任務:
使用hadoop jar
命令來運行Hadoop任務。例如,如果你有一個名為wordcount.jar
的MapReduce程序,可以使用以下命令運行:
hadoop jar wordcount.jar WordCount input output
其中input
是輸入目錄,output
是輸出目錄。
檢查任務狀態:
可以通過Web界面來監控任務的執行狀態。HDFS的Web界面通常是http://<namenode-host>:50070
,YARN的Web界面通常是http://<resourcemanager-host>:8088
。
停止Hadoop集群: 當任務完成后,可以停止Hadoop集群:
stop-yarn.sh
stop-dfs.sh
請注意,這些步驟假設你在一個單節點上運行Hadoop。如果你打算在多節點集群上運行Hadoop,你需要配置相應的slaves
文件(在Hadoop 2.x及更高版本中稱為workers
),并確保所有節點之間的網絡通信正常。此外,你可能還需要配置高可用性(HA)和Federation等功能。