搭建Ubuntu Hadoop集群是一個相對復雜的過程,涉及多個步驟。以下是一個基本的指南,幫助你開始這個過程:
Hadoop需要Java運行環境,通常使用OpenJDK。
sudo apt-get update
sudo apt-get install openjdk-8-jdk
java -version
配置Java環境變量:
echo 'export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64' >> ~/.bashrc
echo 'export PATH=$PATH:$JAVA_HOME/bin' >> ~/.bashrc
source ~/.bashrc
下載并解壓Hadoop安裝包:
wget http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-2.7.2/hadoop-2.7.2.tar.gz
sudo tar -zxvf hadoop-2.7.2.tar.gz -C /usr/local/
sudo mv /usr/local/hadoop-2.7.2 /usr/local/hadoop
sudo chown -R hadoop:hadoop /usr/local/hadoop
編輯Hadoop配置文件:
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://master:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/usr/local/hadoop/tmp</value>
</property>
</configuration>
<configuration>
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>/usr/local/hadoop/hdfs/namenode</value>
</property>
</configuration>
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.resource.memory-mb</name>
<value>4096</value>
</property>
</configuration>
在所有機器上生成SSH密鑰對,并將公鑰復制到其他機器的~/.ssh/authorized_keys
文件中。
ssh-keygen -t rsa
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
scp ~/.ssh/authorized_keys user@slave_machine:/~/.ssh/
在主節點上啟動HDFS和YARN:
cd /usr/local/hadoop/sbin
./start-dfs.sh
./start-yarn.sh
訪問Hadoop的Web界面:
使用Hadoop命令提交一個簡單的MapReduce作業來驗證集群是否正常工作:
hadoop jar /usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount input output
以上步驟提供了一個基本的Ubuntu Hadoop集群搭建流程。根據具體需求和環境,可能需要進行更多的配置和優化。建議參考Hadoop官方文檔以獲取更多詳細信息和進一步的配置。