在Debian上配置Hadoop資源分配涉及多個步驟,包括安裝Hadoop、配置核心文件、啟用動態資源分配等。以下是詳細的步驟指南:
首先,更新系統并安裝必要的軟件包:
sudo apt update
sudo apt upgrade
sudo apt install openjdk-8-jdk
下載并解壓Hadoop安裝包:
wget https://archive.apache.org/dist/hadoop/core/hadoop-3.3.5/hadoop-3.3.5.tar.gz
tar -zxvf hadoop-3.3.5.tar.gz -C /opt
編輯~/.bashrc
文件,添加Hadoop的安裝路徑和bin目錄到PATH環境變量中:
export HADOOP_HOME=/opt/hadoop-3.3.5
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
使配置生效:
source ~/.bashrc
指定NameNode的地址和Hadoop數據的存儲目錄:
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://hadoop102:8020</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/hadoop-3.3.5/data</value>
</property>
</configuration>
配置HDFS相關參數:
<configuration>
<property>
<name>dfs.namenode.http-address</name>
<value>hadoop102</value>
</property>
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
</configuration>
配置YARN相關參數,啟用動態資源分配:
<configuration>
<property>
<name>yarn.nodemanager.resource.memory-mb</name>
<value>8192</value>
</property>
<property>
<name>yarn.scheduler.maximum-allocation-mb</name>
<value>4096</value>
</property>
<property>
<name>yarn.scheduler.minimum-allocation-mb</name>
<value>512</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>spark.dynamicAllocation.enabled</name>
<value>true</value>
</property>
</configuration>
配置MapReduce相關參數:
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
在NameNode節點上運行以下命令格式化HDFS文件系統:
hdfs namenode -format
使用以下命令啟動Hadoop集群:
start-all.sh
可以通過查看日志或使用Hadoop的管理界面(如Ambari)來確認Hadoop服務是否成功啟動。
動態資源分配的配置已經在yarn-site.xml
中完成,啟用后,YARN會根據作業的需要自動調整集群中資源的分配。