溫馨提示×

Hadoop集群Linux系統如何搭建

小樊
48
2025-10-06 01:52:52
欄目: 智能運維

Hadoop集群在Linux系統上的搭建步驟

1. 環境準備

  • 硬件要求:集群需至少3臺服務器(1臺Master節點、2臺Slave節點),建議配置:雙核CPU、8GB及以上內存、100GB及以上硬盤(根據數據規模調整);所有節點需處于同一局域網,具備靜態IP地址,確保網絡互通。
  • 操作系統:推薦使用CentOS 7、Ubuntu 24.2等穩定Linux發行版(所有節點版本一致)。
  • 軟件依賴:需提前安裝Java(JDK 8及以上,推薦OpenJDK)、ssh工具(用于節點間通信)。

2. 安裝Java環境

Hadoop基于Java開發,需在所有節點安裝Java運行環境:

  • CentOS 7:執行sudo yum install -y java-1.8.0-openjdk-devel安裝OpenJDK 8;
  • Ubuntu 24.2:執行sudo apt update && sudo apt install -y openjdk-11-jdk安裝OpenJDK 11。
    安裝完成后,通過java -version驗證是否成功(需顯示Java版本信息)。

3. 下載并解壓Hadoop

從Apache Hadoop官網下載最新穩定版本(如3.3.5),解壓至指定目錄(如/usr/local):

wget https://downloads.apache.org/hadoop/core/hadoop-3.3.5/hadoop-3.3.5.tar.gz  # 替換為最新版本鏈接
tar -zxvf hadoop-3.3.5.tar.gz -C /usr/local/  # 解壓到/usr/local
ln -s /usr/local/hadoop-3.3.5 /usr/local/hadoop  # 創建軟鏈接(簡化命令)

設置Hadoop目錄權限:sudo chown -R hadoop:hadoop /usr/local/hadoop(hadoop為用戶,需提前創建)。

4. 配置Hadoop環境變量

編輯所有節點的~/.bashrc(或/etc/profile)文件,添加以下內容:

export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64  # 根據實際Java安裝路徑修改
export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

保存后執行source ~/.bashrc(或source /etc/profile)使配置生效。

5. 配置Hadoop核心文件

進入Hadoop配置目錄($HADOOP_HOME/etc/hadoop),修改以下關鍵文件:

  • core-site.xml(HDFS默認文件系統):
    <configuration>
        <property>
            <name>fs.defaultFS</name>
            <value>hdfs://namenode:9000</value>  <!-- Master節點主機名或IP -->
        </property>
    </configuration>
    
  • hdfs-site.xml(HDFS副本與目錄配置):
    <configuration>
        <property>
            <name>dfs.replication</name>
            <value>3</value>  <!-- 副本數(集群節點≥3時設為3,否則設為節點數) -->
        </property>
        <property>
            <name>dfs.namenode.name.dir</name>
            <value>/usr/local/hadoop/data/namenode</value>  <!-- NameNode數據目錄 -->
        </property>
    </configuration>
    
  • mapred-site.xml(MapReduce框架配置):
    <configuration>
        <property>
            <name>mapreduce.framework.name</name>
            <value>yarn</value>  <!-- 使用YARN作為資源管理器 -->
        </property>
    </configuration>
    
  • yarn-site.xml(YARN資源管理配置):
    <configuration>
        <property>
            <name>yarn.resourcemanager.hostname</name>
            <value>resourcemanager</value>  <!-- ResourceManager節點主機名或IP -->
        </property>
        <property>
            <name>yarn.nodemanager.aux-services</name>
            <value>mapreduce_shuffle</value>  <!-- Shuffle服務 -->
        </property>
    </configuration>
    

修改完成后,保存所有文件。

6. 配置SSH免密登錄

實現Master節點與所有Slave節點的無密碼通信:

  • 生成密鑰對:在Master節點執行ssh-keygen -t rsa(直接回車,默認路徑~/.ssh/id_rsa);
  • 分發公鑰:將公鑰復制到所有Slave節點:ssh-copy-id hadoop@slave1_ip、ssh-copy-id hadoop@slave2_ip(替換為Slave節點IP或主機名);
  • 驗證免密:執行ssh slave1_ip,若無需輸入密碼即可登錄,則配置成功。

7. 格式化NameNode

僅在Master節點執行,初始化HDFS文件系統:

hdfs namenode -format

此操作會清除HDFS中的所有數據,請謹慎執行(首次搭建時需執行)。

8. 啟動Hadoop集群

  • 啟動HDFS:在Master節點執行start-dfs.sh,啟動NameNode、DataNode等組件;
  • 啟動YARN:在Master節點執行start-yarn.sh,啟動ResourceManager、NodeManager等組件。
    啟動后,可通過jps命令查看進程(Master節點應有NameNode、ResourceManager;Slave節點應有DataNode、NodeManager)。

9. 驗證集群狀態

  • 命令行驗證:執行hdfs dfsadmin -report查看HDFS節點狀態;執行yarn node -list查看YARN節點狀態;
  • Web界面驗證:通過瀏覽器訪問http://namenode_ip:50070(HDFS Web界面)、http://namenode_ip:8088(YARN Web界面),確認集群運行正常。

以上步驟完成后,Hadoop集群即搭建完成,可進行后續的HDFS文件操作、MapReduce作業提交等任務。

0
亚洲午夜精品一区二区_中文无码日韩欧免_久久香蕉精品视频_欧美主播一区二区三区美女