在CentOS系統中配置HDFS(Hadoop分布式文件系統)通常涉及以下幾個步驟:
安裝Java: Hadoop需要Java環境,首先確保你的CentOS系統上安裝了Java??梢允褂靡韵旅畎惭bOpenJDK:
sudo yum install java-1.8.0-openjdk-devel
下載并解壓Hadoop: 從Apache Hadoop官方網站下載最新版本的Hadoop,并將其解壓到你選擇的目錄。
wget https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-3.3.1/hadoop-3.3.1.tar.gz
tar -xzvf hadoop-3.3.1.tar.gz -C /usr/local/
配置Hadoop環境變量:
編輯/etc/profile.d/hadoop.sh
文件,添加Hadoop的環境變量。
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk
export HADOOP_HOME=/usr/local/hadoop-3.3.1
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
然后使環境變量生效:
source /etc/profile.d/hadoop.sh
配置Hadoop:
編輯Hadoop的配置文件,這些文件位于$HADOOP_HOME/etc/hadoop
目錄下。
core-site.xml:配置Hadoop的核心屬性,例如文件系統的默認名稱。
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
hdfs-site.xml:配置HDFS的屬性,例如副本數和數據節點的存儲路徑。
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>/usr/local/hadoop-3.3.1/data/namenode</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/usr/local/hadoop-3.3.1/data/datanode</value>
</property>
</configuration>
yarn-site.xml:配置YARN的屬性,例如資源管理器和節點管理器的地址。
<configuration>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>localhost</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
mapred-site.xml:配置MapReduce的屬性。
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
格式化HDFS: 在第一次啟動HDFS之前,需要對NameNode進行格式化。
hdfs namenode -format
啟動Hadoop集群: 啟動HDFS和YARN服務。
start-dfs.sh
start-yarn.sh
驗證集群狀態: 使用以下命令檢查HDFS和YARN的狀態。
jps
你應該能看到NameNode
、DataNode
、SecondaryNameNode
、ResourceManager
和NodeManager
等進程。
訪問Web界面: 你可以通過瀏覽器訪問HDFS和YARN的Web界面來監控集群狀態。
http://<namenode-host>:50070
http://<resourcemanager-host>:8088
通過以上步驟,你可以在CentOS系統中成功配置和啟動HDFS。