溫馨提示×

如何配置Ubuntu上的HDFS

小樊
47
2025-10-08 08:26:46
欄目: 智能運維

1. 環境準備
更新系統軟件包并安裝基礎工具,確保系統處于最新狀態:

sudo apt update && sudo apt upgrade -y
sudo apt install -y build-essential openssh-server

安裝Java(Hadoop依賴Java環境,推薦OpenJDK 8):

sudo apt install -y openjdk-8-jdk
java -version  # 驗證安裝(需顯示Java版本信息)

2. 下載并解壓Hadoop
從Apache Hadoop官網下載穩定版本(如3.3.4),解壓至指定目錄(如/usr/local):

wget https://downloads.apache.org/hadoop/common/hadoop-3.3.4/hadoop-3.3.4.tar.gz
tar -xzvf hadoop-3.3.4.tar.gz -C /usr/local/

3. 配置Hadoop環境變量
編輯~/.bashrc(或/etc/profile),添加Hadoop路徑配置:

export HADOOP_HOME=/usr/local/hadoop-3.3.4
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

使配置生效:

source ~/.bashrc

4. 配置HDFS核心文件
進入Hadoop配置目錄($HADOOP_HOME/etc/hadoop),修改以下文件:

  • core-site.xml(定義HDFS默認文件系統):
    <configuration>
        <property>
            <name>fs.defaultFS</name>
            <value>hdfs://localhost:9000</value>  <!-- 單機模式為localhost -->
        </property>
    </configuration>
    
  • hdfs-site.xml(配置NameNode/DataNode目錄及副本數):
    <configuration>
        <property>
            <name>dfs.replication</name>
            <value>1</value>  <!-- 單機模式設為1,集群模式需調整為≥3 -->
        </property>
        <property>
            <name>dfs.namenode.name.dir</name>
            <value>/usr/local/hadoop-3.3.4/data/namenode</value>  <!-- NameNode數據目錄 -->
        </property>
        <property>
            <name>dfs.datanode.data.dir</name>
            <value>/usr/local/hadoop-3.3.4/data/datanode</value>  <!-- DataNode數據目錄 -->
        </property>
    </configuration>
    

5. 創建HDFS數據目錄
手動創建NameNode和DataNode的存儲目錄,并設置所有權:

sudo mkdir -p /usr/local/hadoop-3.3.4/data/namenode
sudo mkdir -p /usr/local/hadoop-3.3.4/data/datanode
sudo chown -R $USER:$USER /usr/local/hadoop-3.3.4/data  # 將目錄所有者設為當前用戶

6. 格式化NameNode
首次啟動前需格式化NameNode(初始化HDFS元數據):

hdfs namenode -format

7. 啟動HDFS服務
啟動HDFS分布式文件系統(包含NameNode、DataNode等組件):

start-dfs.sh

8. 驗證HDFS狀態

  • 使用jps命令檢查進程是否啟動(應看到NameNode、DataNode等進程);
  • 訪問HDFS Web界面(默認端口50070):http://localhost:50070(顯示HDFS狀態頁面即表示成功)。

9. 可選:配置SSH免密登錄(集群模式必需)
若搭建多節點集群,需配置NameNode與其他DataNode之間的SSH免密登錄:

ssh-keygen -t rsa -P ''  # 生成密鑰對(直接回車)
ssh-copy-id user@datanode_ip  # 復制公鑰到DataNode(替換user和IP)

注意事項

  • 單機模式下dfs.replication設為1,集群模式下需調整為≥3(保證數據冗余);
  • 防火墻需開放Hadoop相關端口(如9000、50070),避免網絡攔截;
  • 生產環境中建議關閉防火墻或配置更嚴格的訪問規則。

0
亚洲午夜精品一区二区_中文无码日韩欧免_久久香蕉精品视频_欧美主播一区二区三区美女