溫馨提示×

Hadoop在Linux上的分布式計算如何實現

小樊
55
2025-06-09 07:02:07
欄目: 智能運維

Hadoop是一個開源的分布式計算框架,它允許用戶使用簡單的編程模型在跨計算機集群的分布式環境中存儲和處理大數據。Hadoop的核心組件包括Hadoop分布式文件系統(HDFS)和MapReduce計算模型。以下是在Linux上實現Hadoop分布式計算的基本步驟:

1. 環境準備

  • 安裝Java:Hadoop需要Java環境,確保在所有節點上安裝了相同版本的Java。

    sudo apt-get update
    sudo apt-get install openjdk-8-jdk
    
  • 配置SSH無密碼登錄:為了方便集群管理,需要在所有節點之間配置SSH無密碼登錄。

    ssh-keygen -t rsa
    ssh-copy-id user@node2
    ssh-copy-id user@node3
    

2. 下載并解壓Hadoop

  • 下載Hadoop:從Apache Hadoop官網下載最新版本的Hadoop。

    wget https://archive.apache.org/dist/hadoop/common/hadoop-3.3.1/hadoop-3.3.1.tar.gz
    
  • 解壓Hadoop

    tar -xzvf hadoop-3.3.1.tar.gz -C /usr/local/
    
  • 配置環境變量:編輯/etc/profile~/.bashrc文件,添加Hadoop路徑。

    export HADOOP_HOME=/usr/local/hadoop-3.3.1
    export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
    source /etc/profile
    

3. 配置Hadoop集群

  • 編輯core-site.xml:配置HDFS的URI。

    <configuration>
        <property>
            <name>fs.defaultFS</name>
            <value>hdfs://namenode:9000</value>
        </property>
    </configuration>
    
  • 編輯hdfs-site.xml:配置HDFS的副本數和其他參數。

    <configuration>
        <property>
            <name>dfs.replication</name>
            <value>3</value>
        </property>
        <property>
            <name>dfs.namenode.name.dir</name>
            <value>/path/to/namenode/data</value>
        </property>
        <property>
            <name>dfs.datanode.data.dir</name>
            <value>/path/to/datanode/data</value>
        </property>
    </configuration>
    
  • 編輯mapred-site.xml:配置MapReduce框架。

    <configuration>
        <property>
            <name>mapreduce.framework.name</name>
            <value>yarn</value>
        </property>
    </configuration>
    
  • 編輯yarn-site.xml:配置YARN資源管理器。

    <configuration>
        <property>
            <name>yarn.nodemanager.aux-services</name>
            <value>mapreduce_shuffle</value>
        </property>
        <property>
            <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
            <value>org.apache.hadoop.mapred.ShuffleHandler</value>
        </property>
    </configuration>
    

4. 格式化HDFS

在NameNode節點上執行以下命令格式化HDFS:

hdfs namenode -format

5. 啟動Hadoop集群

  • 啟動NameNode和SecondaryNameNode

    start-dfs.sh
    
  • 啟動YARN ResourceManager和NodeManager

    start-yarn.sh
    

6. 驗證集群狀態

  • 檢查HDFS狀態

    hdfs dfsadmin -report
    
  • 檢查YARN狀態

    yarn node -list
    

7. 運行MapReduce作業

編寫一個簡單的MapReduce程序并提交到集群運行。例如,使用Hadoop自帶的WordCount示例:

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class WordCount {
    public static void main(String[] args) throws Exception {
        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf, "word count");
        job.setJarByClass(WordCount.class);
        job.setMapperClass(TokenizerMapper.class);
        job.setCombinerClass(IntSumReducer.class);
        job.setReducerClass(IntSumReducer.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);
        FileInputFormat.addInputPath(job, new Path(args[0]));
        FileOutputFormat.setOutputPath(job, new Path(args[1]));
        System.exit(job.waitForCompletion(true) ? 0 : 1);
    }
}

編譯并打包后,使用以下命令提交作業:

hadoop jar WordCount.jar WordCount input output

通過以上步驟,你可以在Linux上成功配置和運行Hadoop分布式計算集群。

0
亚洲午夜精品一区二区_中文无码日韩欧免_久久香蕉精品视频_欧美主播一区二区三区美女