這篇文章主要講解了“spark中的RDD是什么”,文中的講解內容簡單清晰,易于學習與理解,下面請大家跟著小編的思路慢慢深入,一起來研究和學習“spark中的RDD是什么”吧!
RDD是什么
Spark是圍繞彈性分布式數據集(RDD)的概念展開的,RDD是一種容錯的可分布式操作的數據集合。有兩中方式可以創建RDD:一種是將驅動程序中的已有集合平行化;另外一種是引用外部存儲系統的數據集,例如共享文件系統,HDFS, HBase, 或者其他類似Hadoop的數據源。
RDD的特點之一是分布式存儲,它的好處就是數據存儲在不同的節點上,當需要數據進行計算的時候可以在這些節點上并行操作。彈性表現在節點在存儲RDD數據的時候,既可以存儲在內存中,也可以存儲在磁盤上,也可以兩者結合使用。RDD還有個特點就是延遲計算,當是transformation算子的時候,并不執行操作,直到遇到action算子的時候才開始執行計算。
感謝各位的閱讀,以上就是“spark中的RDD是什么”的內容了,經過本文的學習后,相信大家對spark中的RDD是什么這一問題有了更深刻的體會,具體使用情況還需要大家實踐驗證。這里是億速云,小編將為大家推送更多相關知識點的文章,歡迎關注!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。