環境準備
JAVA_HOME
環境變量。/usr/local/hadoop
。/etc/hosts
中添加所有節點的主機名與IP映射,確保節點間互通。核心配置文件
core-site.xml
:設置默認文件系統(如fs.defaultFS=hdfs://namenode:8020
)和臨時目錄。hdfs-site.xml
:配置副本數(dfs.replication
)、NameNode和DataNode數據目錄、高可用參數(如dfs.nameservices
、dfs.ha.namenodes
等)。yarn-site.xml
:配置ResourceManager和NodeManager參數,啟用YARN高可用需設置yarn.resourcemanager.ha.enabled
。slaves
/masters
文件:列出DataNode和ResourceManager節點主機名。權限與安全
hdfs dfs -chown
設置文件/目錄所有者,hdfs dfs -chmod
設置權限。啟動與停止
hdfs namenode -format
$HADOOP_HOME/sbin/start-dfs.sh
$HADOOP_HOME/sbin/start-yarn.sh
狀態監控
http://namenode:50070
http://resourcemanager:8088
。jps
查看進程,hdfs dfsadmin -report
查看節點狀態。ZooKeeper集群搭建
zoo.cfg
并啟動服務。HDFS高可用參數
hdfs-site.xml
中設置:
dfs.nameservices
:定義集群名稱。dfs.ha.namenodes
:指定主備NameNode名稱。dfs.namenode.shared.edits.dir
:配置JournalNode共享存儲路徑。故障轉移測試
hdfs dfs -ls / # 列出目錄
hdfs dfs -mkdir /test # 創建目錄
hdfs dfs -put localfile /hdfs/path # 上傳文件
hdfs dfs -get /hdfs/path localfile # 下載文件
hdfs dfsadmin -refreshNodes # 刷新節點列表
yarn node -list # 查看NodeManager狀態
參考資料: