溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

Spark,HPCC和Hadoop有什么不同

發布時間:2021-12-10 11:25:55 來源:億速云 閱讀:175 作者:iii 欄目:云計算

本篇內容介紹了“Spark,HPCC和Hadoop有什么不同”的有關知識,在實際案例的操作過程中,不少人都會遇到這樣的困境,接下來就讓小編帶領大家學習一下如何處理這些情況吧!希望大家仔細閱讀,能夠學有所成!

Spark,HPCC和Hadoop有什么不同呢?

  【1.Spark的中間數據放到內存中,對于迭代運算效率比較高】

MapReduce和Sparkis的一個主要區別,MapReduce是非周期性。也就是說,數據流從一個穩定的來源,加工,流出到一個穩定的文件系統?!癝park允許相同的數據,這將形成一個周期,如果工作是可視化的迭代計算。)

  Spark更適合于迭代運算比較多的ML和DM運算。因為在Spark里面,有RDD的概念。彈性分布式數據集(RDD)作為原始數據的抽象,和一些數據保存在內存中緩存供以后使用。最后這點很重要;spark允許在RAM致力于為近似20X基于加速了MapReduce的磁盤上的數據。RDDs是不可改變的,并通過并行轉換,如地圖,過濾器,GroupBy和減少創建的。

  RDD可以cache到內存中,那么每次對RDD數據集的操作之后的結果,都可以存放到內存中,下一個操作可以直接從內存中輸入,省去了MapReduce大量的磁盤IO操作。這對于迭代運算比較常見的機器學習算法來說,效率提升比較大。但是由于Spark目前只是在UC Berkeley的一個研究項目,目前看到的最大規模也就200臺機器,沒有像Hadoop那樣的部署規模,所以,在大規模使用的時候還是要慎重考慮的。

  【2.Spark比Hadoop更通用】

  Spark提供的數據集操作類型有很多種,不像Hadoop只提供了Map和Reduce兩種操作。比如map, filter, flatMap,sample, groupByKey, reduceByKey, union, join, cogroup, mapValues, sort,partionBy等多種操作類型,他們把這些操作稱為Transformations。同時還提供Count, collect, reduce, lookup, save等多種actions。

  這些多種多樣的數據集操作類型,給上層應用者提供了方便。各個處理節點之間的通信模型不再像Hadoop那樣就是唯一的Data Shuffle一種模式。用戶可以命名,物化,控制中間結果的分區等??梢哉f編程模型比Hadoop更靈活。

  不過論文中也提到,Spark不適用那種異步細粒度更新狀態的應用,例如web服務的存儲或者是增量的web爬蟲和索引。就是對于那種增量修改的應用模型,當然不適合把大量數據拿到內存中了。增量改動完了,也就不用了,不需要迭代了。

  【3.容錯性】

  從Spark的論文《Resilient Distributed Datasets: AFault-Tolerant Abstraction for In-Memory Cluster Computing》中沒看出容錯性做的有多好。倒是提到了分布式數據集計算,做checkpoint的兩種方式,一個是checkpoint data,一個是logging the updates。貌似Spark采用了后者。但是文中后來又提到,雖然后者看似節省存儲空間。但是由于數據處理模型是類似DAG的操作過程,由于圖中的某個節點出錯,由于lineage chains的依賴復雜性,可能會引起全部計算節點的重新計算,這樣成本也不低。他們后來說,是存數據,還是存更新日志,做checkpoint還是由用戶說了算吧。相當于什么都沒說,又把這個皮球踢給了用戶。所以我看就是由用戶根據業務類型,衡量是存儲數據IO和磁盤空間的代價和重新計算的代價,選擇代價較小的一種策略。

  【4.關于Spark和Hadoop的融合】

  不知道Apache基金會的人怎么想的,我看Spark還是應該融入到Hadoop生態系統中。從Hadoop 0.23把MapReduce做成了庫,看出Hadoop的目標是要支持包括MapReduce在內的更多的并行計算模型,比如MPI,Spark等。畢竟現在Hadoop的單節點CPU利用率并不高,那么假如這種迭代密集型運算是和現有平臺的互補。同時,這對資源調度系統就提出了更高的要求。有關資源調度方面,UC Berkeley貌似也在做一個Mesos的東西,還用了Linux container,統一調度Hadoop和其他應用模型。

“Spark,HPCC和Hadoop有什么不同”的內容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業相關的知識可以關注億速云網站,小編將為大家輸出更多高質量的實用文章!

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

亚洲午夜精品一区二区_中文无码日韩欧免_久久香蕉精品视频_欧美主播一区二区三区美女