在Debian系統上管理Hadoop服務通常涉及以下幾個關鍵步驟:
安裝Java環境: Hadoop需要Java運行環境。首先,確保系統已經安裝了Java。如果沒有,可以使用以下命令安裝OpenJDK:
sudo apt update
sudo apt install openjdk-11-jdk
確認Java已正確安裝:
java -version
下載并解壓Hadoop: 訪問Hadoop官方網站下載適用于Debian的Hadoop版本,例如Hadoop 3.3.1。
wget https://downloads.apache.org/hadoop/common/hadoop-3.3.1/hadoop-3.3.1.tar.gz
sudo tar -xzvf hadoop-3.3.1.tar.gz -C /usr/local/
sudo mv /usr/local/hadoop-3.3.1 /usr/local/hadoop
配置Hadoop環境變量:
編輯~/.bashrc文件,添加以下內容:
export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64
export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
使配置生效:
source ~/.bashrc
配置Hadoop配置文件: 在Hadoop目錄下,編輯以下配置文件:
core-site.xml:<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://namenode:9000</value>
</property>
</configuration>
hdfs-site.xml:<configuration>
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>/usr/local/hadoop/dfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/usr/local/hadoop/dfs/data</value>
</property>
</configuration>
mapred-site.xml:<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
yarn-site.xml:<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
</configuration>
格式化HDFS: 在NameNode上運行以下命令格式化HDFS:
hdfs namenode -format
啟動Hadoop服務: 在NameNode上啟動Hadoop的NameNode和DataNode:
./sbin/start-dfs.sh
./sbin/start-yarn.sh
驗證安裝: 檢查Hadoop版本:
hadoop version
運行一個簡單的WordCount示例來驗證安裝是否成功。
啟動和停止Hadoop集群:
start-all.sh
stop-all.sh
管理Hadoop文件系統(HDFS):
hdfs dfs -mkdir /path/to/directory
hdfs dfs -put /local/path/file /hdfs/path/
hdfs dfs -get /hdfs/path/file /local/path/
hdfs dfs -ls /path/to/directory
管理Hadoop作業:
hadoop jar /usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.1.jar wordcount input_directory output_directory
yarn application -status <applicationId>
yarn application -kill <applicationId>
使用Hadoop自帶的Web界面:
使用命令行工具:
yarn application -list
yarn application -status <applicationId>
yarn logs -applicationId <applicationId>
使用系統監控工具:
使用日志聚合功能:
使用監控腳本:
以上步驟提供了在Debian系統上管理Hadoop資源的基本指南。在實際操作中,可能還需要根據具體的集群配置和環境進行調整。