在Linux上快速安裝Apache Spark的步驟如下:
首先,確保你的系統上已經安裝了Java運行時環境(JRE)。你可以通過以下命令檢查Java是否已安裝:
java -version
如果沒有安裝Java,可以使用以下命令進行安裝:
sudo apt update
sudo apt install openjdk-11-jre
訪問Apache Spark官網,選擇適合你Hadoop版本的Spark安裝包進行下載。例如,如果你使用的是Hadoop 2.6.x,可以下載spark-2.2.0-bin-hadoop2.6.tgz
。
使用以下命令解壓下載的Spark安裝包:
tar -xvf spark-<version>-bin-hadoop<version>.tgz
例如:
tar -xvf spark-2.2.0-bin-hadoop2.6.tgz
為了方便使用Spark,需要將其添加到系統的環境變量中。編輯~/.bashrc
文件,添加以下內容:
export SPARK_HOME=/path/to/your/spark
export PATH=$SPARK_HOME/bin:$PATH
例如:
export SPARK_HOME=/usr/local/spark-2.2.0-bin-hadoop2.6
export PATH=$SPARK_HOME/bin:$PATH
然后,使環境變量生效:
source ~/.bashrc
進入Spark的conf
目錄,復制spark-env.sh.template
文件并重命名為spark-env.sh
,然后編輯該文件,添加以下內容:
export JAVA_HOME=/usr/local/java/jdk1.8.0_161
export SCALA_HOME=/usr/local/scala
export HADOOP_HOME=/usr/local/hadoop
export HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop
export SPARK_MASTER_IP=127.0.0.1
export SPARK_MASTER_PORT=7077
export SPARK_WORKER_CORES=3
export SPARK_WORKER_INSTANCES=1
export SPARK_WORKER_MEMORY=5G
export SPARK_WORKER_WEBUI_PORT=8081
export SPARK_EXECUTOR_CORES=1
export SPARK_EXECUTOR_MEMORY=1G
export LD_LIBRARY_PATH=${LD_LIBRARY_PATH}:$HADOOP_HOME/lib/native
復制slaves.template
文件并重命名為slaves
,刪除其中的localhost
,并添加集群中其他服務器的IP地址或主機名,每行一個。
進入Spark的sbin
目錄,執行以下命令啟動Spark集群:
./start-all.sh
在主節點上使用以下命令查看啟動情況:
jps
你應該能看到Master
和Worker
進程。
進入Spark的bin
目錄,執行以下命令啟動spark-shell
:
./spark-shell
在spark-shell
中,你可以運行一些示例程序來驗證安裝是否成功。例如,運行spark-submit
提交一個示例程序:
./spark-submit --class org.apache.spark.examples.SparkPi --master spark://127.0.0.1:7077 /path/to/spark/examples/jars/spark-examples_2.11-2.2.0.jar
如果一切正常,你應該會看到類似以下的輸出:
Pi is roughly 3.14716
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。