溫馨提示×

Debian HDFS如何配置與管理

小樊
35
2025-08-14 10:24:57
欄目: 智能運維

一、基礎配置

  1. 環境準備

    • 安裝Java:確保系統已安裝Java 8+,配置JAVA_HOME環境變量。
    • 下載Hadoop:從官網獲取安裝包并解壓至指定目錄,如/usr/local/hadoop。
    • 配置網絡:在/etc/hosts中添加所有節點的主機名與IP映射,確保節點間互通。
  2. 核心配置文件

    • core-site.xml:設置默認文件系統(如fs.defaultFS=hdfs://namenode:8020)和臨時目錄。
    • hdfs-site.xml:配置副本數(dfs.replication)、NameNode和DataNode數據目錄、高可用參數(如dfs.nameservices、dfs.ha.namenodes等)。
    • yarn-site.xml:配置ResourceManager和NodeManager參數,啟用YARN高可用需設置yarn.resourcemanager.ha.enabled。
    • slaves/masters文件:列出DataNode和ResourceManager節點主機名。
  3. 權限與安全

    • 配置用戶權限:使用hdfs dfs -chown設置文件/目錄所有者,hdfs dfs -chmod設置權限。
    • 啟用Kerberos認證(可選):在配置文件中添加Kerberos相關參數,確保集群安全。

二、服務管理

  1. 啟動與停止

    • 格式化NameNode(僅在首次啟動時執行):
      hdfs namenode -format
      
    • 啟動HDFS集群:
      $HADOOP_HOME/sbin/start-dfs.sh
      
    • 啟動YARN集群(若配置):
      $HADOOP_HOME/sbin/start-yarn.sh
      
  2. 狀態監控

    • 通過Web界面查看集群狀態:
      • HDFS:http://namenode:50070
      • YARN:http://resourcemanager:8088。
    • 使用命令行工具:jps查看進程,hdfs dfsadmin -report查看節點狀態。

三、高可用性配置(可選)

  1. ZooKeeper集群搭建

    • 在3個節點上安裝ZooKeeper,配置zoo.cfg并啟動服務。
  2. HDFS高可用參數

    • hdfs-site.xml中設置:
      • dfs.nameservices:定義集群名稱。
      • dfs.ha.namenodes:指定主備NameNode名稱。
      • dfs.namenode.shared.edits.dir:配置JournalNode共享存儲路徑。
  3. 故障轉移測試

    • 模擬主NameNode故障,驗證備用節點是否自動接管服務。

四、常用管理命令

  • 文件操作
    hdfs dfs -ls /          # 列出目錄  
    hdfs dfs -mkdir /test   # 創建目錄  
    hdfs dfs -put localfile /hdfs/path  # 上傳文件  
    hdfs dfs -get /hdfs/path localfile  # 下載文件  
    
  • 集群管理
    hdfs dfsadmin -refreshNodes  # 刷新節點列表  
    yarn node -list            # 查看NodeManager狀態  
    

五、注意事項

  • 確保所有節點時間同步(如使用NTP服務)。
  • 配置防火墻時開放HDFS/YARN所需端口(如50070、8088等)。
  • 生產環境建議使用配置管理工具(如Ansible)批量部署和配置節點。

參考資料:

0
亚洲午夜精品一区二区_中文无码日韩欧免_久久香蕉精品视频_欧美主播一区二区三区美女