這篇文章主要講解了“IDEA創建spark maven項目并連接遠程spark集群”,文中的講解內容簡單清晰,易于學習與理解,下面請大家跟著小編的思路慢慢深入,一起來研究和學習“IDEA創建spark maven項目并連接遠程spark集群”吧!
環境:
scala:2.12.10
spark:3.0.3
1、創建scala maven項目,如下圖所示:
2、
不同版本scala編譯參數可能略有不同,筆者使用的scala版本是2.12.10,scala-archetype-simple插件生成的pom文件
<plugin> <groupId>org.scala-tools</groupId> <artifactId>maven-scala-plugin</artifactId> <version>2.15.0</version> <executions> <execution> <goals> <goal>compile</goal> <goal>testCompile</goal> </goals> <configuration> <args> <arg>-make:transitive</arg> <arg>-dependencyfile</arg> <arg>${project.build.directory}/.scala_dependencies</arg> </args> </configuration> </execution> </executions> </plugin>
要去除-make:transitive這個參數,否則會報錯。
3、創建SparkPi Object類
object SparkPi { def main(args: Array[String]): Unit = { val spark = SparkSession .builder .appName("Spark Pi") .master("spark://172.21.212.114:7077") .config("spark.jars","E:\\work\\polaris\\polaris-spark\\spark-scala\\target\\spark-scala-1.0.0.jar") .config("spark.executor.memory","2g") .config("spark.cores.max","2") .config("spark.driver.host", "172.21.58.28") .config("spark.driver.port", "9089") .getOrCreate() //spark = new SparkContext(conf). val slices = if (args.length > 0) args(0).toInt else 2 val n = math.min(100000L * slices, Int.MaxValue).toInt // avoid overflow val count = spark.sparkContext.parallelize(1 until n, slices).map { i => val x = random * 2 - 1 val y = random * 2 - 1 if (x*x + y*y <= 1) 1 else 0 }.reduce(_ + _) println(s"Pi is roughly ${4.0 * count / (n - 1)}") spark.stop() } }
4、執行打包命令:
5、點擊Idea Run執行即可:
6、結果如下所示:
PS:
1、創建SparkSession時需要指定Idea所在機器ip地址,因為默認會把Spark Driver所在機器域名發送過去,導致無法解析(在spark 服務器上配置IDEA所在機器域名也可以,但是這樣太不靈活)
2、spark-3.0.3默認使用的scala版本是2.12.10,所以要注意IDEA使用scala版本,否則會出現SerailizableId不一致的兼容問題
感謝各位的閱讀,以上就是“IDEA創建spark maven項目并連接遠程spark集群”的內容了,經過本文的學習后,相信大家對IDEA創建spark maven項目并連接遠程spark集群這一問題有了更深刻的體會,具體使用情況還需要大家實踐驗證。這里是億速云,小編將為大家推送更多相關知識點的文章,歡迎關注!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。