Debian上Hadoop集群擴展策略主要包括以下方面:
動態擴容(添加節點)
hdfs-site.xml中添加dfs.hosts屬性,指定允許連接的DataNode;在ResourceManager的yarn-site.xml中添加yarn.resourcemanager.nodes.include-path屬性,指定允許連接的NodeManager。slaves文件(或include文件)添加新節點主機名。hadoop-daemon.sh start datanode和yarn-daemon.sh start nodemanager。hdfs dfsadmin -refreshNodes和yarn rmadmin -refreshNodes命令刷新節點列表,確認節點加入。動態縮容(移除節點)
hadoop-daemon.sh stop datanode和yarn-daemon.sh stop nodemanager。slaves文件中刪除節點主機名。hdfs dfsadmin -refreshNodes和yarn rmadmin -refreshNodes命令確認節點移除。dfs.blocksize(數據塊大?。?、yarn.nodemanager.resource.memory-mb(內存分配)等參數。hdfs balancer命令平衡數據分布,避免節點負載不均。注意事項:操作前備份配置文件和數據,確保節點操作系統、Hadoop版本一致,優先在低峰時段執行。
參考來源: