在Ubuntu上管理HDFS資源可從配置、操作、監控及優化等方面入手,核心要點如下:
基礎配置
apt-get安裝OpenJDK和Hadoop,配置環境變量(如HADOOP_HOME、PATH)。core-site.xml:設置NameNode地址(fs.defaultFS)和臨時目錄。hdfs-site.xml:定義數據塊大?。?code>dfs.blocksize)、副本數(dfs.replication)及數據存儲路徑。yarn-site.xml:配置ResourceManager和NodeManager參數,如內存、CPU資源分配。start-dfs.sh和start-yarn.sh啟動HDFS和YARN集群。資源管理操作
hdfs dfs -mkdir/-rm -r /path。hdfs dfs -put/get /local/path /hdfs/path。hdfs dfs -chown/-chgrp user:group /path。hdfs dfs -chmod 755 /path。http://resourcemanager:8088)監控集群資源。yarn application -submit/-kill ApplicationID。監控與優化
hdfs dfsadmin -report查看集群健康狀態和節點信息。yarn.scheduler.fair.locality.threshold)減少網絡傳輸。fs.trash.interval)和快照機制防止數據誤刪。高可用與擴展
參考來源: