在Ubuntu上部署Hadoop集群是一個相對復雜的過程,需要仔細規劃和執行多個步驟。以下是一個基本的指南,幫助你在Ubuntu上搭建一個Hadoop集群。
sudo apt-get update
sudo apt-get install openjdk-8-jdk
wget https://archive.apache.org/dist/hadoop/common/hadoop-3.3.1/hadoop-3.3.1.tar.gz
tar -zxvf hadoop-3.3.1.tar.gz
/etc/profile
文件,在文件結尾處添加以下內容:export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
使配置文件生效:source /etc/profile
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://master:9000</value>
</property>
</configuration>
<configuration>
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>/usr/local/hadoop/data/namenode</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/usr/local/hadoop/data/datanode</value>
</property>
<property>
<name>dfs.permissions.enabled</name>
<value>false</value>
</property>
</configuration>
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>master</value>
</property>
</configuration>
start-all.sh
jps
如果輸出以下信息,則表示Hadoop集群正常運行:16209 NameNode
16354 ResourceManager
16420 SecondaryNameNode
上傳文件至Hadoop集群: 在Master節點上創建輸入文件夾:
hadoop fs -mkdir input
將本地文件上傳到Hadoop集群:
hadoop fs -put /home/user/input/sample.txt input
查看上傳的文件內容:
hadoop fs -cat input/sample.txt
輸出以下內容,則表示上傳成功:
Hello Hadoop!
運行Hadoop示例:
準備輸入文件sample.txt
,內容如下:
Hello Hadoop!Hello MapReduce!
上傳輸入文件與示例1相同,運行wordcount示例:
hadoop jar /usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.1.jar wordcount input/ output/
查看輸出文件:
hadoop fs -cat output/part-r-00000
輸出以下內容,則表示示例運行成功:
Hadoop! 1Hello 2MapReduce! 1
以上步驟提供了一個基本的指南,幫助你在Ubuntu上搭建一個Hadoop集群。根據具體需求,你可能需要進行更多的配置和優化。