Hadoop與Linux協同工作主要涉及在Linux系統上安裝、配置和運行Hadoop。以下是一個基本的步驟指南:
推薦使用穩定版本的Linux發行版,如Ubuntu Server 20.04 LTS。
Hadoop依賴于Java運行環境,因此需要先安裝Java Development Kit (JDK)??梢允褂靡韵旅畎惭bOpenJDK:
sudo apt update
sudo apt install openjdk-11-jdk
驗證Java安裝:
java -version
javac -version
從Apache Hadoop官網下載適合Linux系統的Hadoop版本,并解壓到指定目錄,例如/usr/local目錄下:
wget https://downloads.apache.org/hadoop/common/hadoop-3.3.1/hadoop-3.3.1.tar.gz
tar -xzvf hadoop-3.3.1.tar.gz
sudo mv hadoop-3.3.1 /usr/local/hadoop
編輯~/.bashrc文件,添加以下內容:
export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
使配置生效:
source ~/.bashrc
編輯Hadoop的核心配置文件,位于HADOOP_HOME/etc/hadoop目錄下,包括core-site.xml、hdfs-site.xml、mapred-site.xml和yarn-site.xml等。根據需求進行相應的配置。
在HDFS的NameNode所在目錄下執行格式化命令:
hdfs namenode -format
使用以下命令啟動Hadoop集群中的各個組件:
start-dfs.sh
start-yarn.sh
使用以下命令檢查Hadoop的運行狀態:
jps
如果輸出結果中包含了NameNode、DataNode、ResourceManager和NodeManager等進程,則說明Hadoop已經成功啟動。
現在可以在Linux上運行各種Hadoop命令了,例如:
hdfs dfs -ls /
hdfs dfs -put /srv/test/test1 /data/test/
yarn jar /path/to/your/mapreduce-job.jar YourMainClass input_path output_path
以上步驟是在Linux系統上安裝和配置Hadoop的基本流程。具體配置可能需要根據實際需求進行調整。