溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

CentOS 7中怎么安裝Hadoop集群

發布時間:2021-07-12 14:41:45 來源:億速云 閱讀:195 作者:Leah 欄目:云計算

CentOS 7中怎么安裝Hadoop集群

目錄

  1. 引言
  2. 準備工作
  3. Hadoop集群架構
  4. 安裝Hadoop
  5. 啟動Hadoop集群
  6. 驗證Hadoop集群
  7. 常見問題及解決方案
  8. 總結

引言

Hadoop是一個開源的分布式計算框架,廣泛應用于大數據處理。它能夠處理海量數據,并且具有高容錯性和高擴展性。本文將詳細介紹如何在CentOS 7上安裝和配置Hadoop集群。

準備工作

系統要求

在開始安裝Hadoop之前,確保你的系統滿足以下要求:

  • CentOS 7操作系統
  • 至少2臺服務器(1臺作為NameNode,1臺作為DataNode)
  • 每臺服務器至少4GB內存
  • 每臺服務器至少20GB磁盤空間
  • 網絡配置正確,確保各節點之間可以互相通信

安裝Java

Hadoop是基于Java開發的,因此需要先安裝Java。以下是安裝Java的步驟:

  1. 更新系統包:
   sudo yum update -y
  1. 安裝Java Development Kit (JDK):
   sudo yum install java-1.8.0-openjdk-devel -y
  1. 驗證Java安裝:
   java -version

如果安裝成功,你應該看到類似以下的輸出:

   openjdk version "1.8.0_292"
   OpenJDK Runtime Environment (build 1.8.0_292-b10)
   OpenJDK 64-Bit Server VM (build 25.292-b10, mixed mode)

配置SSH無密碼登錄

Hadoop集群中的各個節點需要通過SSH進行通信,因此需要配置SSH無密碼登錄。以下是配置步驟:

  1. 生成SSH密鑰對:
   ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
  1. 將公鑰復制到所有節點(包括本機):
   ssh-copy-id user@hostname

其中,user是目標節點的用戶名,hostname是目標節點的主機名或IP地址。

  1. 驗證SSH無密碼登錄:
   ssh hostname

如果配置成功,你應該能夠無需輸入密碼即可登錄到目標節點。

Hadoop集群架構

在Hadoop集群中,通常有以下幾種角色:

  • NameNode:負責管理HDFS的元數據。
  • DataNode:負責存儲實際的數據塊。
  • ResourceManager:負責管理集群資源。
  • NodeManager:負責在每個節點上管理資源。

在一個簡單的Hadoop集群中,通常會有1個NameNode和多個DataNode。ResourceManager和NodeManager可以部署在NameNode或DataNode上。

安裝Hadoop

下載Hadoop

  1. 訪問Hadoop官網下載最新版本的Hadoop。

  2. 使用wget命令下載Hadoop:

   wget https://downloads.apache.org/hadoop/common/hadoop-3.3.1/hadoop-3.3.1.tar.gz
  1. 解壓Hadoop安裝包:
   tar -xzvf hadoop-3.3.1.tar.gz
  1. 將解壓后的目錄移動到/usr/local/hadoop
   sudo mv hadoop-3.3.1 /usr/local/hadoop

配置Hadoop環境變量

  1. 編輯~/.bashrc文件,添加以下內容:
   export HADOOP_HOME=/usr/local/hadoop
   export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
  1. 使環境變量生效:
   source ~/.bashrc

配置Hadoop集群

配置core-site.xml

  1. 編輯$HADOOP_HOME/etc/hadoop/core-site.xml文件,添加以下內容:
   <configuration>
       <property>
           <name>fs.defaultFS</name>
           <value>hdfs://namenode:9000</value>
       </property>
       <property>
           <name>hadoop.tmp.dir</name>
           <value>/usr/local/hadoop/tmp</value>
       </property>
   </configuration>

其中,namenode是NameNode的主機名或IP地址。

配置hdfs-site.xml

  1. 編輯$HADOOP_HOME/etc/hadoop/hdfs-site.xml文件,添加以下內容:
   <configuration>
       <property>
           <name>dfs.replication</name>
           <value>2</value>
       </property>
       <property>
           <name>dfs.namenode.name.dir</name>
           <value>/usr/local/hadoop/hdfs/namenode</value>
       </property>
       <property>
           <name>dfs.datanode.data.dir</name>
           <value>/usr/local/hadoop/hdfs/datanode</value>
       </property>
   </configuration>

其中,dfs.replication指定數據塊的副本數,dfs.namenode.name.dirdfs.datanode.data.dir分別指定NameNode和DataNode的存儲目錄。

配置mapred-site.xml

  1. 編輯$HADOOP_HOME/etc/hadoop/mapred-site.xml文件,添加以下內容:
   <configuration>
       <property>
           <name>mapreduce.framework.name</name>
           <value>yarn</value>
       </property>
   </configuration>

該配置指定使用YARN作為MapReduce的計算框架。

配置yarn-site.xml

  1. 編輯$HADOOP_HOME/etc/hadoop/yarn-site.xml文件,添加以下內容:
   <configuration>
       <property>
           <name>yarn.nodemanager.aux-services</name>
           <value>mapreduce_shuffle</value>
       </property>
       <property>
           <name>yarn.resourcemanager.hostname</name>
           <value>namenode</value>
       </property>
   </configuration>

其中,yarn.resourcemanager.hostname指定ResourceManager的主機名或IP地址。

配置workers文件

  1. 編輯$HADOOP_HOME/etc/hadoop/workers文件,添加所有DataNode的主機名或IP地址:
   datanode1
   datanode2

其中,datanode1datanode2是DataNode的主機名或IP地址。

啟動Hadoop集群

格式化HDFS

在啟動Hadoop集群之前,需要先格式化HDFS:

hdfs namenode -format

啟動HDFS

  1. 啟動NameNode和DataNode:
   start-dfs.sh
  1. 驗證HDFS是否啟動成功:
   jps

你應該看到NameNodeDataNode進程。

啟動YARN

  1. 啟動ResourceManager和NodeManager:
   start-yarn.sh
  1. 驗證YARN是否啟動成功:
   jps

你應該看到ResourceManagerNodeManager進程。

驗證Hadoop集群

檢查HDFS

  1. 在瀏覽器中訪問http://namenode:9870,查看HDFS的狀態。

  2. 使用以下命令查看HDFS中的文件:

   hdfs dfs -ls /

檢查YARN

  1. 在瀏覽器中訪問http://namenode:8088,查看YARN的狀態。

  2. 使用以下命令提交一個簡單的MapReduce任務:

   hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.1.jar pi 2 5

該命令將計算π的近似值。

常見問題及解決方案

  1. HDFS無法啟動:檢查core-site.xmlhdfs-site.xml配置是否正確,確保NameNode和DataNode的目錄存在且可寫。

  2. YARN無法啟動:檢查yarn-site.xml配置是否正確,確保ResourceManager和NodeManager的目錄存在且可寫。

  3. SSH無密碼登錄失敗:檢查~/.ssh/authorized_keys文件是否存在且權限正確。

總結

本文詳細介紹了如何在CentOS 7上安裝和配置Hadoop集群。通過本文的步驟,你應該能夠成功搭建一個Hadoop集群,并運行簡單的MapReduce任務。希望本文對你有所幫助!

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

亚洲午夜精品一区二区_中文无码日韩欧免_久久香蕉精品视频_欧美主播一区二区三区美女