hadoop學習系列(1.大數據典型特性與分布式開發難點)

發布時間：2020-05-29 20:21:50 來源：網絡閱讀：1595 作者：qaz09133694867 欄目：大數據

第一天

1.大數據典型特性與分布式開發難點

1.	大數據典型特性與分布式開發難點
2.	Hadoop框架介紹與搜索技術體系介紹
3.	Hadoop版本與特性介紹
4.	Hadoop核心模塊之HDFS分布式文件系統架構介紹
5.	Hadoop核心模塊之Yarn操作系統架構介紹
6.	Linux安全禁用設置與JDK安裝講解
7.	Hadoop偽分布式環境部署HDFS部分
8.	Hadoop偽分布式環境部署Yarn和MR部分
9.	Hadoop環境使用常見的錯誤集合
10.	Hadoop環境常規設置與輔助功能講解（-）

11.	Hadoop環境常規設置與輔助功能講解（二）
12.	Windows環境下部署Eclipse插件注意事項

1.大數據典型特性與分布式開發難點

1.大數據典型特性

沒有大數據據技術之前，我就以抽樣統計為例（統計一個城市的男女人口比例），我們的做法是不是找個人多的地方，隨機抽取一部分人，統計出男女比例，作為城市的男女人口比例，這樣的誤差非常大，數據量越大，統計出來的結果越準確。這樣我們就要先解決這么大數據量的存儲問題，（這個例子不能體現出數據類型繁多），接下來是不是要解決數據計算的問題，總不能人工一個一個數吧，大數據技術就能為我們解決這些問題。

傳統RDBMS 的瓶頸，關系型數據的特點是各個數據項之間有一定的關系，這個在設計數據庫的設計階段必須設計好，但是當今需求中，我們往往分析的數據之間沒有關系，例如我們在設計一個推薦系統的時候，要分析客戶的行為，客戶的行為數據之間就沒有相應的關系，結構化數據和非結構化數據共存使數據多樣化。

海量的數據，這么大的數據量，我們還要處理的非?？?。這對技術是很大的挑戰。這就是大數據的特性

hadoop學習系列(1.大數據典型特性與分布式開發難點)

多：這里的多就是海量數據,我們要解決海量數據的存儲問題

繁：結構化，非結構化，半結構化數據的共存

快：這么大的數據量，這么繁多的不同類型的數據，還要處理的快，不然就會成為系統的瓶頸。

hadoop學習系列(1.大數據典型特性與分布式開發難點)

我們的最終目的是挖掘出有用的，有價值的數據。

2.大數據的能做什么？

hadoop學習系列(1.大數據典型特性與分布式開發難點)

3.一個數據平臺的工作（完整的平臺）

3.1離線

-》批量計算

3.2 實時

-》流式計算

-》在線分析

3.3數據共享

4.數據平臺指標

-》設備臺數：5000臺

-》總存儲數量：100PB+

-》日新增數量：200TB+，月數據增長比率10%

-》有多個數據產品

-》存儲表10w+

-》日均運行JOB數

-》日均計算量5PB+

5.分布式開發的難點

-》平臺搭建

-》分布式

-》同步，一致性（配置（會搭建很多框架），時間（微妙誤差））

-》自動化部署管理平臺

-》cloudera 發布的hadoop版本 CDH

-》cloudera manager,簡稱：CM

-》框架是開源的不可靠

所以很多公司都是以開源框架為基礎，開發自己的框架，例如：淘寶的 TFS文件系統

任務調度框架oozie，淘寶自己的框架宙斯。

-》成本的問題

由于集群用到的機器比較廉價，所以會出現節點故障，我們必須有相應的容錯機制，保證集群的健壯性。

6.學習大數據的基礎：

hadoop學習系列(1.大數據典型特性與分布式開發難點)

自己學習的隨筆，在組織存在問題，不喜勿說

向AI問一下細節

hadoop學習系列(1.大數據典型特性與分布式開發難點)

猜你喜歡

最新資訊

相關推薦

相關標簽