溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗證碼

其他方式登錄

點擊登錄注冊即表示同意《億速云用戶服務條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時！

請點擊重新獲取二維碼

linux如何安裝hadoop

發布時間：2021-12-17 17:32:26 來源：億速云閱讀：396 作者：iii 欄目：建站服務器

# Linux如何安裝Hadoop

## 前言

Hadoop作為Apache基金會下的開源分布式計算框架，已成為大數據處理領域的基石技術。本文將詳細介紹在Linux系統上安裝Hadoop的完整流程，涵蓋從環境準備到集群驗證的全過程。本教程基于Hadoop 3.x版本，適用于大多數主流Linux發行版（如Ubuntu/CentOS）。

---

## 一、環境準備

### 1.1 硬件要求
- 至少4GB內存（生產環境建議16GB+）
- 雙核CPU（生產環境建議8核+）
- 50GB可用磁盤空間（數據節點需要更大）
- 千兆網絡連接（集群環境必需）

### 1.2 軟件要求
- **操作系統**：Ubuntu 20.04 LTS/CentOS 7+
- **Java環境**：JDK 8或11（推薦OpenJDK）
- **SSH服務**：用于節點間通信
- **防火墻配置**：開放必要端口（默認50070/8088等）

### 1.3 用戶與權限
建議創建專用用戶避免權限問題：
```bash
sudo useradd -m hadoop -s /bin/bash
sudo passwd hadoop
sudo usermod -aG sudo hadoop  # 授予sudo權限
su - hadoop  # 切換用戶

二、基礎環境配置

2.1 安裝Java

Hadoop依賴Java環境，推薦安裝OpenJDK：

# Ubuntu/Debian
sudo apt update
sudo apt install openjdk-11-jdk -y

# CentOS/RHEL
sudo yum install java-11-openjdk-devel -y

驗證安裝：

java -version
# 應輸出類似：openjdk version "11.0.12" 2021-07-20

2.2 配置SSH免密登錄

Hadoop集群管理需要SSH無密碼訪問：

ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 600 ~/.ssh/authorized_keys

測試本地免密登錄：

ssh localhost  # 應無需密碼直接登錄

2.3 關閉防火墻（可選）

# Ubuntu
sudo ufw disable

# CentOS
sudo systemctl stop firewalld
sudo systemctl disable firewalld

三、Hadoop安裝與配置

3.1 下載Hadoop

wget https://downloads.apache.org/hadoop/common/hadoop-3.3.4/hadoop-3.3.4.tar.gz
tar -xzvf hadoop-3.3.4.tar.gz
mv hadoop-3.3.4 /usr/local/hadoop

3.2 環境變量配置

編輯~/.bashrc文件：

export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export JAVA_HOME=$(dirname $(dirname $(readlink -f $(which java))))

使配置生效：

source ~/.bashrc

3.3 核心配置文件修改

1. hadoop-env.sh

echo "export JAVA_HOME=$JAVA_HOME" >> $HADOOP_HOME/etc/hadoop/hadoop-env.sh

2. core-site.xml

<configuration>
  <property>
    <name>fs.defaultFS</name>
    <value>hdfs://localhost:9000</value>
  </property>
  <property>
    <name>hadoop.tmp.dir</name>
    <value>/tmp/hadoop_tmp</value>
  </property>
</configuration>

3. hdfs-site.xml

<configuration>
  <property>
    <name>dfs.replication</name>
    <value>1</value>  <!-- 單機模式設為1 -->
  </property>
  <property>
    <name>dfs.namenode.name.dir</name>
    <value>file:///usr/local/hadoop/data/namenode</value>
  </property>
  <property>
    <name>dfs.datanode.data.dir</name>
    <value>file:///usr/local/hadoop/data/datanode</value>
  </property>
</configuration>

4. mapred-site.xml

<configuration>
  <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
  </property>
</configuration>

5. yarn-site.xml

<configuration>
  <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
  </property>
  <property>
    <name>yarn.nodemanager.env-whitelist</name>
    <value>JAVA_HOME,HADOOP_COMMON_HOME,...</value>
  </property>
</configuration>

四、HDFS初始化與啟動

4.1 格式化NameNode

hdfs namenode -format

成功時會看到”Storage directory /usr/local/hadoop/data/namenode has been successfully formatted”提示。

4.2 啟動HDFS

start-dfs.sh

驗證進程：

jps
# 應看到NameNode/DataNode/SecondaryNameNode進程

4.3 啟動YARN

start-yarn.sh

驗證資源管理器：

jps  # 應新增ResourceManager/NodeManager進程

4.4 Web UI訪問

HDFS: http://localhost:9870
YARN: http://localhost:8088

五、集群驗證測試

5.1 創建HDFS目錄

hdfs dfs -mkdir /input
hdfs dfs -put $HADOOP_HOME/etc/hadoop/*.xml /input

5.2 運行MapReduce示例

hadoop jar \
  $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.4.jar \
  grep /input /output 'dfs[a-z.]+'

5.3 查看結果

hdfs dfs -cat /output/*
# 應輸出包含"dfs"關鍵詞的統計結果

六、集群模式擴展（可選）

6.1 添加DataNode

在所有從節點重復安裝步驟
在$HADOOP_HOME/etc/hadoop/workers中添加從節點IP
在主節點執行：

hdfs dfsadmin -refreshNodes
yarn rmadmin -refreshNodes

6.2 高可用配置

需配置： - ZooKeeper集群 - JournalNode服務 - 雙NameNode（Active/Standby）

常見問題解決

Q1: 啟動時報錯”Connection refused”

檢查SSH免密登錄是否配置正確
驗證/etc/hosts是否包含所有節點IP映射

Q2: Web UI無法訪問

檢查防火墻設置
確認服務端口是否監聽：

netstat -tulnp | grep java

Q3: 磁盤空間不足

修改hdfs-site.xml中的dfs.datanode.data.dir路徑
清理HDFS垃圾箱：

hdfs dfs -expunge

結語

通過上述步驟，您已成功在Linux系統上搭建了Hadoop單機/偽分布式環境。實際生產部署時，請根據業務需求調整配置參數，并考慮安全加固措施（如Kerberos認證）。Hadoop生態豐富，后續可進一步學習Hive、Spark等組件的集成使用。

注意事項
- 定期備份NameNode元數據 - 監控磁盤和內存使用情況 - 生產環境建議使用CDH/HDP等商業發行版 “`

該文檔共約4100字，采用Markdown格式編寫，包含： 1. 分步驟的詳細安裝指南 2. 關鍵配置文件的完整示例 3. 驗證方法和故障排查 4. 擴展集群的注意事項 5. 代碼塊與命令行的清晰區分

可根據實際環境調整路徑、版本號等參數。建議配合官方文檔食用更佳。

向AI問一下細節

推薦閱讀：

免責聲明：本站發布的內容（圖片、視頻和文字）以原創、轉載和分享為主，文章觀點不代表本網站立場，如果涉及侵權請聯系站長郵箱：is@yisu.com進行舉報，并提供相關證據，一經查實，將立刻刪除涉嫌侵權內容。

上一篇新聞：
怎樣使用進程池實現高并發服務器
下一篇新聞：
如何進行springboot配置templates直接訪問的實現

猜你喜歡

AI
助
手

產品服務

地區劃分

專題活動

幫助支持

關于我們

售后咨詢

7*24小時在線電話：400-100-2938

7*24小時在線 QQ：800811969

關注億速云

億速云公眾號

手機網站二維碼

亚洲午夜精品一区二区_中文无码日韩欧免_久久香蕉精品视频_欧美主播一区二区三区美女