Apache Spark Standalone 是一種簡單的分布式計算框架,用于在多臺機器上運行 Spark 應用程序。要配置 Spark Standalone 集群,請按照以下步驟操作:
準備環境: 確保所有節點(Master 和 Worker)上都安裝了 Java Development Kit (JDK) 和 Apache Spark。你還需要在每個節點上安裝一個 SSH 服務器,以便 Master 可以訪問 Worker。
配置 Spark:
在每個節點上創建一個名為 spark-env.sh 的 shell 腳本,用于設置 Spark 環境變量。在每個節點上執行以下命令:
touch spark-env.sh
chmod +x spark-env.sh
編輯 spark-env.sh 文件,添加以下內容(根據你的環境進行修改):
export SPARK_MASTER_HOST=<master-ip>
export SPARK_MASTER_PORT=7077
export SPARK_WORKER_CORES=<worker-cores>
export SPARK_WORKER_MEMORY=<worker-memory>
export SPARK_WORKER_INSTANCES=<worker-instances>
export SPARK_LOG_DIR=<log-directory>
export SPARK_HOME=<spark-home>
$SPARK_HOME/sbin/start-master.sh
這將在 Master 節點上啟動一個 Web UI,你可以在瀏覽器中訪問 http://<master-ip>:7077 以查看 Spark Web UI。
$SPARK_HOME/sbin/start-slave.sh spark://<master-ip>:7077
這將使 Worker 注冊到 Master,并開始在指定的核心和內存上運行任務。
$SPARK_HOME/bin/spark-submit --master spark://<master-ip>:7077 --deploy-mode cluster examples/src/main/python/wordcount.py
如果一切正常,你應該能在 Web UI 中看到作業的執行情況,以及各個 Task 的狀態。
現在你已經成功配置了一個 Spark Standalone 集群。你可以開始在這個集群上運行你的 Spark 應用程序了。