1. 版本兼容性檢查
確保選擇的Hadoop版本與Debian版本(如Debian 11/12)兼容,同時Hadoop版本需與已安裝的Java版本匹配(如Hadoop 3.x通常需要Java 8或更高版本)。避免因版本沖突導致安裝或運行失敗。
2. Java環境正確配置
Hadoop依賴Java運行環境,需安裝OpenJDK(推薦11及以上版本)。通過java -version
命令驗證Java是否安裝成功,并在~/.bashrc
或/etc/profile
中添加JAVA_HOME
環境變量(指向Java安裝路徑,如/usr/lib/jvm/java-11-openjdk-amd64
),確保Hadoop能正確識別Java。
3. 網絡與主機名配置
Hadoop集群節點間需通過網絡通信,需配置/etc/hosts
文件,添加所有節點的IP地址與主機名映射(如192.168.1.1 namenode
、192.168.1.2 datanode1
),避免DNS解析問題。同時,關閉節點防火墻或開放必要端口(如HDFS的9000、YARN的8088端口),確保節點間互通。
4. 關鍵目錄權限設置
Hadoop的數據目錄(如dfs.name
、dfs.data
)和日志目錄需設置正確權限。通常將目錄所有者設為運行Hadoop的用戶(如hadoop
),并賦予讀寫執行權限(chmod -R 755 /usr/local/hadoop/dfs
),避免因權限不足導致啟動失敗。
5. HDFS格式化操作
僅在NameNode上執行一次hdfs namenode -format
命令,用于初始化HDFS元數據。格式化會清除原有數據,需謹慎操作。若集群已存在數據,重復格式化會導致數據丟失。
6. 服務啟動與進程驗證
在NameNode上啟動HDFS服務(start-dfs.sh
),在ResourceManager上啟動YARN服務(start-yarn.sh
)。使用jps
命令檢查進程是否正常運行(NameNode、DataNode、ResourceManager、NodeManager等),確保集群服務啟動成功。
7. 硬件資源規劃
根據集群規模合理分配硬件資源:
8. 配置文件正確修改
Hadoop的核心配置文件位于$HADOOP_HOME/etc/hadoop
目錄,需根據集群環境修改以下關鍵參數:
fs.defaultFS
,如hdfs://namenode:9000
);dfs.replication
,根據節點數量調整,如3)、NameNode數據目錄(dfs.namenode.name.dir
)、DataNode數據目錄(dfs.datanode.data.dir
);mapreduce.framework.name
,值為yarn
);yarn.nodemanager.aux-services
,值為mapreduce_shuffle
)。