本篇內容主要講解“Hadoop設計概念是什么”,感興趣的朋友不妨來看看。本文介紹的方法操作簡單快捷,實用性強。下面就讓小編來帶大家學習“Hadoop設計概念是什么”吧!
一、Hadoop簡介
Apache Hadoop是目前最流行的軟件框架,可使用簡單的高級編程模型實現大型數據集的分布式存儲和處理。Hadoop是Apache Software Foundation的一個開源項目,可以安裝在服務器集群上,以便這些服務器可以通信并協同工作來存儲和處理大型數據集。Hadoop近年來因其有效處理大數據的能力而變得非常成功。它允許公司將所有數據存儲在一個系統中,并對這些數據進行分析,否則傳統解決方案不可能或非常昂貴。
圍繞Hadoop構建的許多配套工具提供了各種各樣的處理技術。與輔助系統和實用程序的集成非常出色,使Hadoop的實際工作更輕松,更高效。這些工具共同構成了Hadoop生態系統。
大家可以將Hadoop視為大數據操作系統,從而可以在所有龐大的數據集上運行不同類型的工作負載。其范圍從離線批處理到機器學習再到實時流處理。
二、Hadoop設計概念
為了解決處理和存儲大型數據集的挑戰,Hadoop是根據以下核心特征構建的:
1、分布 - 存儲和處理不是構建一臺大型超級計算機,而是分布在一組通信和協同工作的小型機器上。
2、橫向可擴展性 - 只需添加新計算機即可輕松擴展Hadoop集群。每臺新機器都會按比例增加Hadoop集群的總存儲和處理能力。
3、容錯 - 即使少數硬件或軟件組件無法正常工作,Hadoop仍可繼續運行。
4、成本優化 - Hadoop不需要昂貴的高端服務器,無需商業許可即可正常工作。
5、編程抽象 - Hadoop負責處理與分布式計算相關的所有混亂細節。借助高級API,用戶可以專注于實現解決現實問題的業務邏輯。
6、數據位置 - Hadoop不會將大型數據集移動到運行應用程序的位置,而是運行數據已經存在的應用程序。
三、Hadoop組件
Hadoop分為兩個核心組件:HDFS分布式文件系統;YARN集群資源管理技術。
1、HDFS:
HDFS是一個Hadoop分布式文件系統。它可以在您需要的任意數量的服務器上運行 - HDFS可以輕松擴展到數千個節點和數PB的數據。HDFS設置越大,某些磁盤,服務器或網絡交換機出現故障的概率就越大。HDFS通過在多個服務器上復制數據來幸免于這些類型的故障。HDFS自動檢測給定組件是否已發生故障,并采取對用戶透明發生的必要恢復操作。
HDFS設計用于存儲數百兆字節或千兆字節的大型文件,并為它們提供高吞吐量的流數據訪問。最后但同樣重要的是,HDFS支持一次寫入多次讀取模型。對于這個用例,HDFS就像一個魅力。但是,如果您需要存儲大量具有隨機讀寫訪問權限的小文件,那么其他系統(如RDBMS和Apache HBase)可以做得更好。
2、YARN:
YARN(Yet Another Resource Negotiator)負責管理Hadoop集群上的資源,并支持運行處理存儲在HDFS上的數據的各種分布式應用程序。與HDFS類似,YARN遵循主從設計,ResourceManager進程充當主節點,多個NodeManager充當工作者。他們有以下責任:
(1)ResourceManager
跟蹤實時NodeManagers以及群集中每臺服務器上的可用計算資源量。為應用程序分配可用資源。監視Hadoop集群上所有應用程序的執行情況。
(2)節點管理器
管理Hadoop集群中單個節點上的計算資源(RAM和CPU)。運行各種應用程序的任務,并強制它們在指定的計算資源的限制范圍內。
YARN以資源容器的形式將集群資源分配給各種應用程序,資源容器表示RAM量和CPU核心數量的組合。
Hadoop = HDFS + YARN
在同一群集上運行的HDFS和YARN守護程序為我們提供了一個用于存儲和處理大型數據集的強大平臺。
到此,相信大家對“Hadoop設計概念是什么”有了更深的了解,不妨來實際操作一番吧!這里是億速云網站,更多相關內容可以進入相關頻道進行查詢,關注我們,繼續學習!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。