Apache Spark 3.x 相較于 Spark 2.x 在多個方面展現出更顯著的受歡迎程度,這些差異主要體現在性能提升、新特性引入以及社區和生態系統的支持上。具體如下:
性能提升
- Spark 2.x:引入了新的執行引擎 Tungsten,相比 Spark 1.x,Tungsten 執行引擎的性能提高了10倍。
- Spark 3.x:性能相比 Spark 2.4 提升近2倍,且 Spark 3.0 引入了自適應查詢執行,可以根據數據和硬件資源的情況自動調整查詢執行計劃,提高查詢性能。
新特性引入
- Spark 2.x:重要的特性包括全流程代碼生成技術、向量化技術提升parquet文件的掃描吞吐量等。
- Spark 3.x:引入了自適應查詢執行、動態資源分配、改進的Python API等。
社區和生態系統支持
- Spark 3.x:得到了更廣泛的社區支持,新特性的引入和性能的提升使得更多的開發者和組織選擇使用 Spark 3.x。小米基于 Spark 3.1 建設了新一代一站式數據開發平臺,顯示出企業對 Spark 3.x 的青睞。
綜上所述,Spark 3.x 在性能、新特性和社區支持方面都展現了其優勢,因此目前看來,Spark 3.x 比 Spark 2.x 更受歡迎。