第一天
1.大數據典型特性與分布式開發難點
1. | 大數據典型特性與分布式開發難點 |
2. | Hadoop框架介紹與搜索技術體系介紹 |
3. | Hadoop版本與特性介紹 |
4. | Hadoop核心模塊之HDFS分布式文件系統架構介紹 |
5. | Hadoop核心模塊之Yarn操作系統架構介紹 |
6. | Linux安全禁用設置與JDK安裝講解 |
7. | Hadoop偽分布式環境部署HDFS部分 |
8. | Hadoop偽分布式環境部署Yarn和MR部分 |
9. | Hadoop環境使用常見的錯誤集合 |
10. | Hadoop環境常規設置與輔助功能講解(-) |
11. | Hadoop環境常規設置與輔助功能講解(二) |
12. | Windows環境下部署Eclipse插件注意事項 |
1.大數據典型特性與分布式開發難點
1.大數據典型特性
沒有大數據據技術之前,我就以抽樣統計為例(統計一個城市的男女人口比例),我們的做法是不是找個人多的地方,隨機抽取一部分人,統計出男女比例,作為城市的男女人口比例,這樣的誤差非常大,數據量越大,統計出來的結果越準確。這樣我們就要先解決這么大數據量的存儲問題,(這個例子不能體現出數據類型繁多),接下來是不是要解決數據計算的問題,總不能人工一個一個數吧,大數據技術就能為我們解決這些問題。
傳統RDBMS 的瓶頸,關系型數據的特點是各個數據項之間有一定的關系,這個在設計數據庫的設計階段必須設計好,但是當今需求中,我們往往分析的數據之間沒有關系,例如我們在設計一個推薦系統的時候,要分析客戶的行為,客戶的行為數據之間就沒有相應的關系,結構化數據和非結構化數據共存使數據多樣化。
海量的數據,這么大的數據量,我們還要處理的非???。這對技術是很大的挑戰。這就是大數據的特性
多:這里的多就是海量數據,我們要解決海量數據的存儲問題
繁:結構化,非結構化,半結構化數據的共存
快:這么大的數據量,這么繁多的不同類型的數據,還要處理的快,不然就會成為系統的瓶頸。
我們的最終目的是挖掘出有用的,有價值的數據。
2.大數據的能做什么?
3.一個數據平臺的工作(完整的平臺)
3.1離線
-》批量計算
3.2 實時
-》流式計算
-》在線分析
3.3數據共享
4.數據平臺指標
-》設備臺數:5000臺
-》總存儲數量:100PB+
-》日新增數量:200TB+,月數據增長比率10%
-》有多個數據產品
-》存儲表10w+
-》日均運行JOB數
-》日均計算量5PB+
5.分布式開發的難點
-》平臺搭建
-》分布式
-》同步,一致性(配置(會搭建很多框架),時間(微妙誤差))
-》自動化部署管理平臺
-》cloudera 發布的hadoop版本 CDH
-》cloudera manager,簡稱:CM
-》框架是開源的 不可靠
所以很多公司都是以開源框架為基礎,開發自己的框架,例如:淘寶的 TFS文件系統
任務調度框架oozie,淘寶自己的框架 宙斯 。
-》成本的問題
由于集群用到的機器比較廉價,所以會出現節點故障,我們必須有相應的容錯機制,保證集群的健壯性。
6.學習大數據的基礎:
自己學習的隨筆,在組織存在問題,不喜勿說
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。