溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗證碼

其他方式登錄

點擊登錄注冊即表示同意《億速云用戶服務條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時！

請點擊重新獲取二維碼

如何分析數據湖存儲架構選型

發布時間：2022-01-12 16:28:32 來源：億速云閱讀：201 作者：柒染欄目：云計算

這篇文章給大家介紹如何分析數據湖存儲架構選型，內容非常詳細，感興趣的小伙伴們可以參考借鑒，希望對大家能有所幫助。

一、數據湖是個潮流

簡單來講，數據湖的理念就是說從一個企業的視角來講，把整個數據集中的統一的存儲在一起，主要通過 BI 和 AI 的手段來計算分析原始的數據。數據的類型不光是結構化、半結構化的，還包括音視頻，這樣的一些材料。

我們為什么要基于數據湖來做這樣的一個轉型呢，數據湖能夠給我們帶來什么樣的好處呢。

第一，打破數據孤島。就是說原始的數據我們先不考慮怎么去處理它、分析它，甚至是說我們先不考慮它到底會不會解決很大的業務上面的問題，我們先把它放在一起，打破數據孤島，為后面的業務發展演化和計算，可能就提供了很好的一個機會。

第二，基于統一的、集中的整個數據的收集，可以支持各種各樣的計算。

第三，彈性。我們數據湖本身是有彈性的，然后支持的計算也是有彈性的。彈性可能在云上面帶來成本的很大的伸縮性的空間，為我們優化存儲和計算的成本帶來了這樣一個可能。

第四，管理。我們把數據放在一起，可以提供統一的、集中的這樣一個管理控制。

熟悉 Hadoop 整個生態的話，過去經常會談到一個非常大的、非常復雜的生態的大圖。那個圖里面涉及到非常多的組件，結構關系非常復雜。而基于數據湖的架構，可以得到大大的簡化。

如下圖所示，最下面是數據湖本身，基于這樣的一個數據湖存儲，我們可以有一個統一的元數據服務，做數據湖的創建管理，然后圍繞數據湖做數據的治理開發，和各種數據源的集成打通。但是這個并不是目的，最主要的作用還是說我們要做計算。數據湖的計算，簡單來講就是說我們有各種各樣的開源的 BI 的引擎，或者 AI 的引擎，每個引擎可能有自己的集群，然后基于數據湖來進行相應的計算場景的處理。然后滿足我們最上面的基于數據湖的各種應用，比如說數據大屏，數據報表，數據挖掘，機器學習。

二、湖存儲/加速：挑戰很大

數據湖架構里面，對于存儲的挑戰很大。

第一，最大的一個因素是數據量的問題。按照數據湖的理念，我們要把所有的數據全部都放在一起，那么在數據的規模上來講是非常大的，數據規?？梢耘蛎浀?PB、EB 級別。

第二，文件的規模。從存儲系統的角度來講，文件的規?？梢哉f也是非常大，要么就是層次非常深，要么就是非常扁平。扁平就是說一個目錄下可能會有幾百萬的文件數，形成這樣一個超大的目錄。

第三，成本。我要收集那么多的數據，我要把全部原始的數據放在一起，成本上怎么去優化。

另外一個挑戰就是說，按照數據湖的架構，它背后的本質是存儲和計算分離?，F在是專業化的分工，存儲的做存儲，計算的做計算，這個帶來非常大的研發效率的這樣一個提升。但是分離了之后，怎么滿足計算的吞吐，怎么滿足計算對性能的這樣一個需求，這也是帶來很大挑戰的一個原因。

另外，在數據湖的整個的方案下面，要考慮到計算場景是非常豐富的，計算的環境也是錯綜復雜的。大數據，我們要支持分析、交互式、實時計算。然后 AI 有自己的各種各樣的引擎來訓練。

然后是計算的場景，包括 EMR 、ECS 自建、云原生、混合云。這樣的一些環境可能都會涉及到，我們怎么提供一個統一、集中的存儲的解決方案，來滿足這樣一個豐富的計算場景和環境。

假設我們能夠克服數據量上面的挑戰，滿足各種計算的環境，也能夠提供緩存加速，也能夠滿足存儲的這樣一個性能?，F在架構師決定了我們要做數據遷移，實施層面的挑戰是什么。我們要做大量數據的遷移，之后要做正確性的比對。另外，比如說， Hive 數倉，Spark 作業，可能上千上萬的作業我們決定要遷移，遷移了之后要做結果的比對。遷移上來之后，可能我過去有一套成熟的治理、運維的體系，在新的架構下面，我怎么能夠盡量少改，能夠繼續得到支持。這是實施層面的挑戰。

三、完美選項之 checklist

數據湖架構下面，從存儲、加速的視角，我們可以看到有這樣一些挑戰，那么理想的選型是什么樣子的，要考慮到哪些因素，這里做了一個總結。

第一，基于對象存儲，大規模存儲能力。
第二，大目錄元數據操作能力。
第三，策略靈活的緩存加速能力。
第四，和計算打通優化的能力。

第五，支持數據湖新型表格存儲的能力。
第六，歸檔/壓縮/安全存儲的能力。
第七，全面的大數據+ AI 生態支持。
第八，強大遷移能力，甚至是無縫遷移能力。

以上就是作為一個理想的數據湖的存儲、加速方案，最好具備的一個 checklist ?？紤]升級到數據湖架構的這樣一些架構師可以對照一下這個 checklist ，來做方案的選型。

關于如何分析數據湖存儲架構選型就分享到這里了，希望以上內容可以對大家有一定的幫助，可以學到更多知識。如果覺得文章不錯，可以把它分享出去讓更多的人看到。

向AI問一下細節

推薦閱讀：

免責聲明：本站發布的內容（圖片、視頻和文字）以原創、轉載和分享為主，文章觀點不代表本網站立場，如果涉及侵權請聯系站長郵箱：is@yisu.com進行舉報，并提供相關證據，一經查實，將立刻刪除涉嫌侵權內容。

上一篇新聞：
Cubieboard共享電腦的WIFI的方法是什么
下一篇新聞：
cubieboard PM2.5監控小程序怎么實現

猜你喜歡

AI
助
手

產品服務

地區劃分

專題活動

幫助支持

關于我們

售后咨詢

7*24小時在線電話：400-100-2938

7*24小時在線 QQ：800811969

關注億速云

億速云公眾號

手機網站二維碼

亚洲午夜精品一区二区_中文无码日韩欧免_久久香蕉精品视频_欧美主播一区二区三区美女