HDFS節點(NameNode、DataNode、SecondaryNameNode)的管理核心是通過腳本命令控制服務啟停及狀態。
start-dfs.sh
,會自動啟動本地NameNode及所有DataNode服務;若需單獨啟停某組件,可使用hadoop-daemon.sh
(如hadoop-daemon.sh start namenode
)。stop-dfs.sh
,停止所有DataNode及NameNode服務;單獨停止組件同理(如hadoop-daemon.sh stop datanode
)。jps
命令查看NameNode、DataNode等進程是否運行;或使用hdfs dfsadmin -report
獲取集群詳細狀態(包括節點數量、存儲容量、剩余空間等)。當集群存儲或計算能力不足時,可通過以下步驟動態添加DataNode:
/etc/hadoop/conf/
目錄下的配置文件(core-site.xml
、hdfs-site.xml
)復制到新節點相同目錄;編輯hdfs-site.xml
,添加dfs.namenode.datanode.registration.ip-hostname-check false
(避免IP/主機名校驗問題)。hadoop-daemon.sh start datanode
啟動DataNode服務。hdfs dfsadmin -report
,檢查新節點是否出現在DataNode列表中。若需永久移除節點(如硬件故障、集群縮容),需通過優雅退役避免數據丟失:
hdfs dfsadmin -decommissionNode <NodeName>
(<NodeName>
為目標節點的主機名或IP),等待命令執行完成(需確保數據已遷移至其他節點)。hdfs dfsadmin -refreshNodes
使配置生效。定期監控集群狀態是保障HDFS穩定的關鍵,常用方法包括:
hdfs dfsadmin -report
:查看集群整體狀態(節點數量、存儲使用、DataNode健康狀況)。hdfs fsck /
:檢查HDFS文件系統健康狀況(識別損壞文件塊、丟失副本)。hdfs dfs -df -h /
:查看HDFS根目錄的空間使用情況(總容量、已用容量、剩余容量)。http://<namenode-host>:9870
)查看集群拓撲、節點狀態、存儲指標等。/etc/hadoop/conf/core-site.xml
中的fs.defaultFS
配置是否正確;查看NameNode日志(/var/log/hadoop-hdfs/hadoop-hdfs-namenode-*.log
),定位啟動失敗原因(如端口占用、元數據損壞)。/etc/hadoop/conf/core-site.xml
中fs.defaultFS
是否指向正確的NameNode地址;確認防火墻是否開放DataNode端口(默認50010);查看DataNode日志(/var/log/hadoop-hdfs/hadoop-hdfs-datanode-*.log
),排查連接問題。hdfs fsck / -files -blocks
檢查數據塊完整性;若副本數不足,HDFS會自動從其他節點復制副本(需確保dfs.replication
參數設置合理)。以上步驟覆蓋了CentOS環境下HDFS節點的核心管理操作,可根據實際需求調整配置參數(如副本數、塊大?。?,并結合監控工具實現集群的自動化管理。