溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

CentOS下怎么安裝Hadoop

發布時間:2022-02-17 09:35:54 來源:億速云 閱讀:212 作者:iii 欄目:開發技術
# CentOS下怎么安裝Hadoop

## 一、前言

在大數據時代,Hadoop作為分布式系統基礎架構的核心框架,已成為企業處理海量數據的首選解決方案。本文將詳細介紹在CentOS操作系統上安裝Hadoop的完整流程,涵蓋從環境準備到集群配置的全過程,幫助讀者快速搭建自己的Hadoop開發環境。

## 二、環境準備

### 2.1 系統要求

- **操作系統**:CentOS 7/8(本文以CentOS 7.9為例)
- **硬件配置**:
  - 最低2GB RAM(生產環境建議8GB以上)
  - 20GB可用磁盤空間
  - 雙核CPU

### 2.2 軟件依賴

安裝前需確保系統已包含以下組件:

```bash
sudo yum install -y java-1.8.0-openjdk-devel ssh pdsh

2.3 網絡配置

  1. 設置靜態IP(以ens33網卡為例):
sudo vi /etc/sysconfig/network-scripts/ifcfg-ens33

修改內容:

BOOTPROTO=static
ONBOOT=yes
IPADDR=192.168.1.100
NETMASK=255.255.255.0
GATEWAY=192.168.1.1
DNS1=8.8.8.8
  1. 修改主機名:
sudo hostnamectl set-hostname hadoop-master
  1. 配置hosts文件:
sudo vi /etc/hosts

添加內容:

192.168.1.100 hadoop-master
192.168.1.101 hadoop-slave1
192.168.1.102 hadoop-slave2

三、創建Hadoop專用用戶

建議使用非root用戶運行Hadoop:

sudo groupadd hadoop
sudo useradd -g hadoop hduser
sudo passwd hduser

配置SSH免密登錄:

su - hduser
ssh-keygen -t rsa -P ""
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 600 ~/.ssh/authorized_keys

四、Hadoop安裝步驟

4.1 下載Hadoop

wget https://archive.apache.org/dist/hadoop/common/hadoop-3.3.4/hadoop-3.3.4.tar.gz

驗證文件完整性:

sha512sum hadoop-3.3.4.tar.gz | grep $(curl -s https://archive.apache.org/dist/hadoop/common/hadoop-3.3.4/hadoop-3.3.4.tar.gz.sha512)

4.2 解壓安裝

tar -xzvf hadoop-3.3.4.tar.gz -C /opt/
sudo chown -R hduser:hadoop /opt/hadoop-3.3.4
ln -s /opt/hadoop-3.3.4 /opt/hadoop

4.3 環境變量配置

編輯~/.bashrc文件:

export HADOOP_HOME=/opt/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export JAVA_HOME=$(dirname $(dirname $(readlink -f $(which java))))
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"

使配置生效:

source ~/.bashrc

五、Hadoop配置

5.1 核心配置文件

  1. hadoop-env.sh
echo "export JAVA_HOME=$JAVA_HOME" >> $HADOOP_HOME/etc/hadoop/hadoop-env.sh
  1. core-site.xml
<configuration>
  <property>
    <name>fs.defaultFS</name>
    <value>hdfs://hadoop-master:9000</value>
  </property>
  <property>
    <name>hadoop.tmp.dir</name>
    <value>/opt/hadoop/data/tmp</value>
  </property>
</configuration>
  1. hdfs-site.xml
<configuration>
  <property>
    <name>dfs.replication</name>
    <value>2</value>
  </property>
  <property>
    <name>dfs.namenode.name.dir</name>
    <value>/opt/hadoop/data/namenode</value>
  </property>
  <property>
    <name>dfs.datanode.data.dir</name>
    <value>/opt/hadoop/data/datanode</value>
  </property>
</configuration>

5.2 MapReduce配置

  1. mapred-site.xml
<configuration>
  <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
  </property>
  <property>
    <name>mapreduce.application.classpath</name>
    <value>$HADOOP_HOME/share/hadoop/mapreduce/*:$HADOOP_HOME/share/hadoop/mapreduce/lib/*</value>
  </property>
</configuration>
  1. yarn-site.xml
<configuration>
  <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
  </property>
  <property>
    <name>yarn.resourcemanager.hostname</name>
    <value>hadoop-master</value>
  </property>
</configuration>

5.3 工作節點配置

編輯workers文件(Hadoop 3.x之前為slaves):

hadoop-slave1
hadoop-slave2

六、集群部署

6.1 格式化HDFS

hdfs namenode -format

6.2 啟動集群

start-dfs.sh
start-yarn.sh

驗證服務:

jps

應看到以下進程: - NameNode - DataNode - ResourceManager - NodeManager - SecondaryNameNode

6.3 Web UI訪問

七、測試驗證

7.1 HDFS測試

hdfs dfs -mkdir /test
hdfs dfs -put $HADOOP_HOME/etc/hadoop/*.xml /test
hdfs dfs -ls /test

7.2 MapReduce測試

hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.4.jar wordcount /test /output

八、常見問題解決

8.1 Java環境問題

錯誤現象:

Error: JAVA_HOME is not set and could not be found

解決方案:

echo "export JAVA_HOME=$(dirname $(dirname $(readlink -f $(which java))))" >> $HADOOP_HOME/etc/hadoop/hadoop-env.sh

8.2 端口沖突

檢查端口占用:

netstat -tulnp | grep 9000

修改core-site.xml中的端口號:

<value>hdfs://hadoop-master:9001</value>

8.3 磁盤權限問題

確保數據目錄權限正確:

sudo mkdir -p /opt/hadoop/data/{tmp,namenode,datanode}
sudo chown -R hduser:hadoop /opt/hadoop/data

九、安全配置建議

  1. 啟用Kerberos認證
  2. 配置網絡防火墻:
sudo firewall-cmd --permanent --add-port=9000/tcp
sudo firewall-cmd --permanent --add-port=9870/tcp
sudo firewall-cmd --reload
  1. 定期備份namenode元數據

十、性能優化

10.1 內存配置

修改yarn-site.xml

<property>
  <name>yarn.nodemanager.resource.memory-mb</name>
  <value>8192</value>
</property>

10.2 數據壓縮

配置mapred-site.xml

<property>
  <name>mapreduce.map.output.compress</name>
  <value>true</value>
</property>

十一、總結

本文詳細介紹了在CentOS系統上安裝Hadoop的完整流程,包括: 1. 系統環境準備 2. Hadoop用戶創建 3. 軟件安裝與配置 4. 集群部署與驗證 5. 常見問題解決方案

通過本指南,讀者應能夠成功搭建一個功能完整的Hadoop集群,為后續的大數據開發和分析工作奠定基礎。

注意:生產環境部署時,建議根據實際硬件配置調整參數,并進行充分的安全配置和性能測試。 “`

這篇文章包含了: 1. 詳細的安裝步驟說明 2. 配置文件的完整示例 3. 常見問題的解決方案 4. 安全建議和性能優化提示 5. 必要的命令和代碼片段 6. 結構化的章節安排 7. 實際可操作的驗證方法

總字數約3400字,采用Markdown格式,可直接用于技術文檔發布。

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

亚洲午夜精品一区二区_中文无码日韩欧免_久久香蕉精品视频_欧美主播一区二区三区美女