以下是在Debian系統上配置Hadoop的指南:
更新系統:sudo apt update
,sudo apt upgrade -y
。安裝Java 8或更高版本,如sudo apt install openjdk-11-jdk -y
,并驗證安裝java -version
。創建Hadoop用戶sudo adduser hadoop
,并賦予sudo權限sudo usermod -aG sudo hadoop
。
從Apache官網下載Hadoop,如wget https://downloads.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz
,然后解壓到指定目錄,如/usr/local
:tar -xzvf hadoop-3.3.6.tar.gz -C /usr/local/
。
編輯~/.bashrc
或/etc/profile
文件,添加export HADOOP_HOME=/usr/local/hadoop
和export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
,然后執行source ~/.bashrc
或source /etc/profile
使配置生效。
fs.defaultFS
為hdfs://namenode:9000
,hadoop.tmp.dir
為數據臨時目錄,如/usr/local/hadoop/tmp
。dfs.replication
為數據副本數,如3;設置dfs.namenode.name.dir
和dfs.datanode.data.dir
分別為NameNode和DataNode的數據存儲目錄。mapreduce.framework.name
為yarn
。yarn.nodemanager.aux - services
為mapreduce_shuffle
,yarn.nodemanager.aux - services.mapreduce.shuffle.class
為org.apache.hadoop.mapred.ShuffleHandler
。編輯/etc/network/interfaces
配置靜態IP等信息,編輯/etc/hosts
添加所有節點的IP和主機名。關閉防火墻sudo ufw disable
。
在NameNode上格式化HDFS:hdfs namenode -format
。在NameNode上啟動HDFS服務start-dfs.sh
,在ResourceManager上啟動YARN服務start-yarn.sh
。
通過hdfs dfs -ls /
查看HDFS文件系統,通過yarn node -list
查看YARN節點狀態,也可訪問NameNode的Web界面http://namenode:9000
驗證。