溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

Hadoop的聯邦機制知識點有哪些

發布時間:2021-12-09 15:45:05 來源:億速云 閱讀:189 作者:iii 欄目:編程語言

這篇文章主要講解了“Hadoop的聯邦機制知識點有哪些”,文中的講解內容簡單清晰,易于學習與理解,下面請大家跟著小編的思路慢慢深入,一起來研究和學習“Hadoop的聯邦機制知識點有哪些”吧!

一、Hadoop的局限與不足

Hadoop1.0的核心組件MR和HDFS主要有幾個不足:

1、抽象層次低。對于簡單的功能,編寫大量的代碼。

2、表達能力有限。MR把復雜分布式編程工作高度抽象到兩個函數上,即Map和Reduce上,實際生產環境中有些不能只用簡單的兩個函數完成。

3、要管理作業間復雜的依賴關系。實際應用通常需要大量的job協作完成,job之間往往存在復雜的依賴關系。

4、迭代效率低。對于需要迭代的任務,需要反復讀寫HDFS文件中的數據,大大降低了迭代效率。

5、資源浪費。Reduce任務需要等待所有Map任務完成后才開始。

6、實時性差。適用于離線批處理。

二、聯邦的實現

采用多臺 NN 組成聯邦。NN 是獨立的,NN 之間不需要相互調用。NN 是聯合的,同屬于一個聯邦,所管理的 DN 作為 block 的公共存儲。block pool 的概念,每一個 namespace 都有一個 pool,datanodes 會存儲集群中所有的 pool,block pool 之間的管理是獨立的,一個 namespace 生成一個 blockid 時不需要跟其它 namespace 協調,一個 namenode 的失敗也不會影響到 datanode對其它 namenodes 的服務。一個 namespace 和它的 block pool 作為一個管理單元,刪除后,對應于datanodes 中的 pool 也會被刪除。集群升級時,這個管理單元也獨立升級。這里引入 clusterID 來標示集群所有節點。當一個 namenode format 之后,這個 id 生成,集群中其它 namenode 的 format 也用這個 id。

三、主要優點:

命名空間可伸縮性——聯合添加命名空間水平擴展。DN 也隨著 NN 的加入而得到拓展。

性能——文件系統吞吐量不是受單個Namenode 限制。添加更多的Namenode集群擴展文件系統讀/寫吞吐量。

隔離——隔離不同類型的程序,一定程度上控制資源的分配

四、配置:

聯邦的配置是向后兼容的,允許在不改變任何配置的情況下讓當前運行的單節點環境轉換成聯邦環境。新的配置方案確保了在集群環境中的所有節點的配置文件都是相同的。這里引入了 NameServiceID 概念,作為 namenodes 們的后綴。第一步:配置屬性 dfs.nameservices,用于 datanodes 們識別 namenodes。第二步:為每個 namenode 加入這個后綴。

五、操作:

# 創建聯邦,不指定 ID 會自動生成

$HADOOP_HOME/bin/hdfs namenode -format [-clusterId <cluster_id>]

# 升級 Hadoop 為集群

$HADOOP_HOME/bin/hdfs start namenode --config $HADOOP_CONF_DIR

-upgrade -clusterId <cluster_ID>

# 擴展已有聯邦

$HADOOP_HOME/bin/hdfs dfsadmin -refreshNamenodes

<datanode_host_name>:<datanode_rpc_port>

# 退出聯邦

$HADOOP_HOME/sbin/distribute-exclude.sh <exclude_file>

$HADOOP_HOME/sbin/refresh-namenodes.sh

什么是 CDH?

它是 Hadoop眾多分支中的一種,由 Cloudera 維護,基于穩定版本的 Apache Hadoop 構建,并集成了很多補丁, 可直接用于生產環境。

CDH 的優點: 版本劃分清晰

版本更新速度快

支持 Kerberos 安全認證文檔清晰

支持多種安裝方式(Cloudera Manager、YUM、RPM、Tarball) 什么是 CM Cloudera Manager? 是為了便于在集群中進行 Hadoop

等大數據處理相關的服務安裝和監控管理的組件,對集群中主機、Hadoop、Hive、Spark等服務的安裝配置管理做了極大簡化。
Cloudera Manager 有四大功能:

(1)管理:對集群進行管理,如添加、刪除節點等操作。

(2)監控:監控集群的健康情況,對設置的各種指標和系統運行情況進行全面監控。

(3)診斷:對集群出現的問題進行診斷,對出現的問題給出建議解決方案。

(4)集成:對 hadoop 的多組件進行整合。

感謝各位的閱讀,以上就是“Hadoop的聯邦機制知識點有哪些”的內容了,經過本文的學習后,相信大家對Hadoop的聯邦機制知識點有哪些這一問題有了更深刻的體會,具體使用情況還需要大家實踐驗證。這里是億速云,小編將為大家推送更多相關知識點的文章,歡迎關注!

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

亚洲午夜精品一区二区_中文无码日韩欧免_久久香蕉精品视频_欧美主播一区二区三区美女