1. 環境準備
更新系統軟件包并安裝基礎工具,確保系統處于最新狀態:
sudo apt update && sudo apt upgrade -y
sudo apt install -y build-essential openssh-server
安裝Java(Hadoop依賴Java環境,推薦OpenJDK 8):
sudo apt install -y openjdk-8-jdk
java -version # 驗證安裝(需顯示Java版本信息)
2. 下載并解壓Hadoop
從Apache Hadoop官網下載穩定版本(如3.3.4),解壓至指定目錄(如/usr/local
):
wget https://downloads.apache.org/hadoop/common/hadoop-3.3.4/hadoop-3.3.4.tar.gz
tar -xzvf hadoop-3.3.4.tar.gz -C /usr/local/
3. 配置Hadoop環境變量
編輯~/.bashrc
(或/etc/profile
),添加Hadoop路徑配置:
export HADOOP_HOME=/usr/local/hadoop-3.3.4
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
使配置生效:
source ~/.bashrc
4. 配置HDFS核心文件
進入Hadoop配置目錄($HADOOP_HOME/etc/hadoop
),修改以下文件:
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value> <!-- 單機模式為localhost -->
</property>
</configuration>
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value> <!-- 單機模式設為1,集群模式需調整為≥3 -->
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>/usr/local/hadoop-3.3.4/data/namenode</value> <!-- NameNode數據目錄 -->
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/usr/local/hadoop-3.3.4/data/datanode</value> <!-- DataNode數據目錄 -->
</property>
</configuration>
5. 創建HDFS數據目錄
手動創建NameNode和DataNode的存儲目錄,并設置所有權:
sudo mkdir -p /usr/local/hadoop-3.3.4/data/namenode
sudo mkdir -p /usr/local/hadoop-3.3.4/data/datanode
sudo chown -R $USER:$USER /usr/local/hadoop-3.3.4/data # 將目錄所有者設為當前用戶
6. 格式化NameNode
首次啟動前需格式化NameNode(初始化HDFS元數據):
hdfs namenode -format
7. 啟動HDFS服務
啟動HDFS分布式文件系統(包含NameNode、DataNode等組件):
start-dfs.sh
8. 驗證HDFS狀態
jps
命令檢查進程是否啟動(應看到NameNode
、DataNode
等進程);http://localhost:50070
(顯示HDFS狀態頁面即表示成功)。9. 可選:配置SSH免密登錄(集群模式必需)
若搭建多節點集群,需配置NameNode與其他DataNode之間的SSH免密登錄:
ssh-keygen -t rsa -P '' # 生成密鑰對(直接回車)
ssh-copy-id user@datanode_ip # 復制公鑰到DataNode(替換user和IP)
注意事項:
dfs.replication
設為1,集群模式下需調整為≥3(保證數據冗余);