溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗證碼

其他方式登錄

點擊登錄注冊即表示同意《億速云用戶服務條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時！

請點擊重新獲取二維碼

【科普】一篇文章讓你知曉Spark

發布時間：2020-06-03 07:45:42 來源：網絡閱讀：529 作者：小程序員一欄目：大數據

說起大數據的工具，最廣為人知的就是Hadoop和Spark了，Hadoop在上一篇文章中已經有所介紹，這期小編就為大家介紹后起之秀Spark。

Spark是一個運算速度快如閃電的Apache項目，研發人員聲稱它是“一種用于數據大規模處理的快速通用引擎”，[A1] Spark是UC BerkeleyAMP lab所開源的類Hadoop MapReduce的通用的并行計算框架，基于map reduce算法實現的分布式計算，擁有Hadoop MapReduce所具有的優點。[A2]

它提供了一個運算速度快的一般化數據處理平臺，可以讓你程序的內存計算速度提高到100倍，或者磁盤計算速度(Hadoop)提高10倍。去年的Daytona GraySort比賽中，Spark只用了Hadoop十分之一數量的機器就實現了其三倍多的速度，目前，Spark已經成了處理PB級別數據運算速度最快的開源工具。[A3]

Spark核心概念是ResilientDistributed Dataset (RDD)彈性分布數據集，RDD實現了以操作本地集合的方式來操作分布式數據集的抽象實現。RDD是Spark最核心的東西，它表示已被分區，不可變的并能夠被并行操作的數據集合，不同的數據集格式對應不同的RDD實現。RDD必須是可序列化的，可以cache到內存中，每次對RDD數據集的操作之后的結果，都可以存放到內存中，下一個操作可以直接從內存中輸入，省去了MapReduce大量的磁盤IO操作。這對于迭代運算比較常見的機器學習算法, 交互式數據挖掘來說，效率提升比較大。[A4]

以RDD為核心的Spark構架圖如下

Spark在機器學習方面有著無與倫比的優勢，特別適合需要多次迭代計算的算法。同時Spark擁有非常出色的容錯和調度機制，確保系統的穩定運行[A5] ，而在易用性方面，更是大有名氣，它隨帶易于使用的API，支持Scala(原生語言)、Java、Python和Spark SQL。SparkSQL非常類似于SQL 92，所以幾乎不需要經歷一番學習，馬上可以上手。[A6]

Spark幫助人們簡化了處理大規模數據的步驟流程，將許多復雜的功能(比如機器學習算法和圖算法)無縫地結合起來，并以其快如閃電的計算速度，正在快速地擴大著自己的影響力，我們有理由相信，憑借Spark獨特的優異性能，未來Spark必將會綻放出更為璀璨的光芒。

[A1]來源：別再比較Hadoop和Spark了，那不是設計人員的初衷

[A2]來源科普Spark，Spark是什么，如何使用Spark；百度百科

[A3]來源：Apache Spark介紹及案例展示

[A4]來源：科普Spark，Spark核心是什么，如何使用Spark（2）http://www.aboutyun.com/thread-6850-1-1.html

[A5]來源：跟我一起數據挖掘（22）——spark入門

[A6]來源：別再比較Hadoop和Spark了，那不是設計人員的初衷

最終來源：啟創方舟微信公眾號

向AI問一下細節

推薦閱讀：

免責聲明：本站發布的內容（圖片、視頻和文字）以原創、轉載和分享為主，文章觀點不代表本網站立場，如果涉及侵權請聯系站長郵箱：is@yisu.com進行舉報，并提供相關證據，一經查實，將立刻刪除涉嫌侵權內容。

上一篇新聞：
采用web技術開發PC應用
下一篇新聞：
設備基本配置準備

猜你喜歡

AI
助
手

產品服務

地區劃分

專題活動

幫助支持

關于我們

售后咨詢

7*24小時在線電話：400-100-2938

7*24小時在線 QQ：800811969

關注億速云

億速云公眾號

手機網站二維碼

亚洲午夜精品一区二区_中文无码日韩欧免_久久香蕉精品视频_欧美主播一区二区三区美女