溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

為什么要用Hadoop

發布時間:2021-12-09 15:23:26 來源:億速云 閱讀:333 作者:iii 欄目:大數據

這篇文章主要講解了“為什么要用Hadoop”,文中的講解內容簡單清晰,易于學習與理解,下面請大家跟著小編的思路慢慢深入,一起來研究和學習“為什么要用Hadoop”吧!

什么是 Hadoop

Hadoop 是由很多技術項目組成的一個生態系統。狹義的 Hadoop 有三個框架:

  • 海量數據的存儲 - HDFS(Hadoop Distributed File System)
  • 海量數據的分析 - MapReduce
  • 資源管理調度 - YARN(Yet Another Resouce Negotiator)

以上狹義的 Hadoop 最擅長的僅僅是做海量離線日志分析,廣義的 Hadoop 包含很多組件,現在可以做非常多的事情,應用場景非常廣,包括實時計算等。

大數據計算的核心是移動計算而不是移動數據:將運算程序分發到分布式的數據集上運行,而不是移動數據。

為什么要使用 Hadoop

數據量不斷增大,單節點無法應對海量數據的處理,需要使用分布式架構,需要考慮的復雜情況非常多,如:任務監控、節點存活監控、數據如何共享、中間數據如何傳遞等。Hadoop 作為分布式框架,已經為我們解決了這些問題,使用它極大降低了海量數據下的公共數據處理問題。

如何解決海量數據的存儲

首先了解一下什么是 NFS,NFS 網絡文件系統將文件掛載到不同的機器上,通過一臺服務器(NFS Server)作為統一的入口,其他客戶端訪問 Server,Server 將從目標機器上取文件給客戶端。簡單理解為有一個文件服務器在遠端,叫 NFS Server,上面有共享文件,可以將它掛載到你本地的機器上,訪問 NFS Server 就像訪問自己電腦的某一個磁盤一樣(比如 C 盤)。

HDFS 是有 NameNode 和 DataNode 的概念,最基本的模型是一臺 NameNode,多臺 DataNode。NameNode 存儲元信息,如某個文件存放在哪臺服務器上,有幾份備份等。DataNode 存儲數據,數據文件被切分成塊(block),每一塊存儲在多個節點上,互為備份,默認是 3 份,可以在同一個機架,一般為了保證高可用,會放在不同機架上。

HDFS 和 NFS 的主要區別:

  • HDFS 數據冗余,具有容錯性,而 NFS 只存儲一份;
  • HDFS 數據多副本解決單點瓶頸,讀取性能會比 NFS 更好;

如何解決海量數據的計算

海量數據的計算關鍵是移動計算而不是移動數據。

假設有特別多的數據需要計算,只用一臺機器是無法實現的,因為數據無法一次讀取完,會對內存造成特別大的壓力,需要讀取很多次,會受網絡的限制。

Hadoop 通過 MapReduce 實現海量數據的計算,數據存儲在多個 DataNode 上,Map 階段將計算程序分發到每個 DataNode 上,將每個節點上的計算結果通過網絡發送到某一臺做 Reduce 計算的機器,Reduce 將結果進行匯總輸出。

感謝各位的閱讀,以上就是“為什么要用Hadoop”的內容了,經過本文的學習后,相信大家對為什么要用Hadoop這一問題有了更深刻的體會,具體使用情況還需要大家實踐驗證。這里是億速云,小編將為大家推送更多相關知識點的文章,歡迎關注!

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

亚洲午夜精品一区二区_中文无码日韩欧免_久久香蕉精品视频_欧美主播一区二区三区美女