在Ubuntu上配置Hadoop涉及多個步驟,包括安裝Java環境、配置SSH、下載和解壓Hadoop、配置Hadoop環境變量以及啟動Hadoop服務等。以下是一個基本的配置指南:
首先,確保你的Ubuntu系統上安裝了Java。你可以使用以下命令來安裝OpenJDK 8:
sudo apt-get update
sudo apt-get install openjdk-8-jdk
安裝完成后,配置Java環境變量。編輯~/.bashrc文件,添加以下內容:
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
export PATH=$JAVA_HOME/bin:$PATH
然后,使配置生效:
source ~/.bashrc
驗證Java安裝:
java -version
在Hadoop集群中,所有節點之間需要能夠無密碼SSH登錄。
在主節點上生成SSH密鑰(如果還沒有的話):
ssh-keygen -t rsa
將公鑰復制到其他節點:
ssh-copy-id user@slave_node_ip
確保SSH服務在所有節點上運行:
sudo systemctl start ssh
sudo systemctl enable ssh
從Apache Hadoop官網下載最新版本的Hadoop。例如,下載Hadoop 3.3.1:
wget https://archive.apache.org/dist/hadoop/common/hadoop-3.3.1/hadoop-3.3.1.tar.gz
解壓到指定目錄:
sudo tar -zxvf hadoop-3.3.1.tar.gz -C /usr/local/
編輯~/.bashrc文件,添加Hadoop環境變量:
export HADOOP_HOME=/usr/local/hadoop-3.3.1
export PATH=$HADOOP_HOME/bin:$PATH
使配置生效:
source ~/.bashrc
進入Hadoop目錄并編輯配置文件:
cd /usr/local/hadoop-3.3.1/etc/hadoop/
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://master:9000</value>
</property>
</configuration>
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>/usr/local/hadoop/data/namenode</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/usr/local/hadoop/data/datanode</value>
</property>
</configuration>
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>master</value>
</property>
</configuration>
在主節點上啟動Hadoop集群:
start-dfs.sh
start-yarn.sh
使用以下命令檢查Hadoop進程是否正在運行:
jps
你應該能看到類似以下的輸出:
1234 NameNode
1235 Secondary NameNode
1236 ResourceManager
1237 NodeManager
/etc/hosts文件和/etc/hostname文件配置正確。以上步驟提供了一個基本的指南,具體配置可能會根據你的具體環境和需求有所不同。建議參考Hadoop官方文檔以獲取更詳細的指導。