簡單來講,數據湖的理念就是說從一個企業的視角來講,把整個數據集中的統一的存儲在一起,主要通過 BI 和 AI 的手段來計算分析原始的數據。數據的類型不光是結構化、半結構化的,還包括音視頻,這樣的一些材料。我們為什么要基于數據湖來做這樣的一個轉型呢,數據湖能夠給我們帶來什么樣的好處呢。第一,打破數據孤島。就是說原始的數據我們先不考慮怎么去處理它、分析它,甚至是說我們先不考慮它到底會不會解決很大的業務上面的問題,我們先把它放在一起,打破數據孤島,為后面的業務發展演化和計算,可能就提供了很好的一個機會。第二,基于統一的、集中的整個數據的收集,可以支持各種各樣的計算。第三,彈性。我們數據湖本身是有彈性的,然后支持的計算也是有彈性的。彈性可能在云上面帶來成本的很大的伸縮性的空間,為我們優化存儲和計算的成本帶來了這樣一個可能。第四,管理。我們把數據放在一起,可以提供統一的、集中的這樣一個管理控制。熟悉 Hadoop 整個生態的話,過去經常會談到一個非常大的、非常復雜的生態的大圖。那個圖里面涉及到非常多的組件,結構關系非常復雜。而基于數據湖的架構,可以得到大大的簡化。如下圖所示,最下面是數據湖本身,基于這樣的一個數據湖存儲,我們可以有一個統一的元數據服務,做數據湖的創建管理,然后圍繞數據湖做數據的治理開發,和各種數據源的集成打通。但是這個并不是目的,最主要的作用還是說我們要做計算。數據湖的計算,簡單來講就是說我們有各種各樣的開源的 BI 的引擎,或者 AI 的引擎,每個引擎可能有自己的集群,然后基于數據湖來進行相應的計算場景的處理。然后滿足我們最上面的基于數據湖的各種應用,比如說數據大屏,數據報表,數據挖掘,機器學習。