一、HDFS集群擴容前的準備工作
core-site.xml(如fs.defaultFS指向NameNode地址)、hdfs-site.xml(如dfs.replication副本數、dfs.namenode.handler.countNameNode線程池大?。┑群诵呐渲梦募椭频叫鹿濣c的Hadoop配置目錄(通常為$HADOOP_HOME/etc/hadoop)。二、新增DataNode節點的具體步驟
hdfs --daemon start datanode(或hadoop-daemon.sh start datanode,取決于Hadoop版本),啟動DataNode進程。hdfs dfsadmin -report,查看輸出中的“Live DataNodes”列表,確認新節點的IP、存儲目錄、剩余空間等信息已顯示,表示節點成功加入集群。三、可選:縱向擴容(現有節點硬件升級)
/dev/sdb1)并格式化(sudo mkfs.ext4 /dev/sdb1)。/mnt/newdisk),執行sudo mount /dev/sdb1 /mnt/newdisk臨時掛載;修改/etc/fstab文件(添加/dev/sdb1 /mnt/newdisk ext4 defaults 0 0),實現開機自動掛載。hdfs-site.xml文件,添加新的存儲路徑到dfs.datanode.data.dir屬性(如/path/to/existing/dir,/mnt/newdisk,多個路徑用逗號分隔)。sudo systemctl restart hadoop-datanode或hdfs --daemon restart datanode)。四、數據平衡操作
hdfs balancer命令,啟動HDFS自帶的平衡器。該工具會自動將數據從存儲利用率高的節點遷移到低的節點,默認平衡閾值是10%(可通過-threshold參數調整,如hdfs balancer -threshold 5)。hdfs balancer -status命令,查看平衡進度(顯示“Balancing is not running”表示完成);也可通過Web UI(如NameNode的50070端口)監控數據遷移情況。五、擴容驗證
hdfs dfsadmin -report,確認新節點的存儲空間已被納入集群統計,數據塊分布均勻(各節點的“Used Space”比例差異?。?。hdfs dfs -put /local/largefile /testdir),讀取該文件并記錄時間,驗證數據訪問性能是否符合預期。