這篇文章主要講解了“大數據技術應該怎么自學”,文中的講解內容簡單清晰,易于學習與理解,下面請大家跟著小編的思路慢慢深入,一起來研究和學習“大數據技術應該怎么自學”吧!
大數據本質也是數據,但是又有了新的特征,包括數據來源廣、數據格式多樣化(結構化數據、非結構化數據、Excel文件、文本文件等)、數據量大(最少也是TB級別的、甚至可能是PB級別)、數據增長速度快等。
通過幾個問題了解我們應該學習那些技術:
數據來源廣,該如何采集匯總?,對應出現了Sqoop,Cammel,Datax等工具。
數據采集之后,該如何存儲?,對應出現了GFS,HDFS,TFS等分布式文件存儲系統。
數據存儲之后,該如何快速運算出自己想要的結果?對應的MapReduce這樣的分布式運算框架解決了這個問題;但是寫MapReduce需要Java代碼量很大,所以出現了Hive,Pig等將SQL轉化成MapReduce的解析引擎;普通的MapReduce處理數據只能一批一批地處理,時間延遲太長,為了實現每輸入一條數據就能得到結果,于是出現了Storm/JStorm這樣的低時延的流式計算框架;但是如果同時需要批處理和流處理,按照如上就得搭兩個集群,Hadoop集群(包括HDFS+MapReduce+Yarn)和Storm集群,不易于管理,所以出現了Spark這樣的一站式的計算框架,既可以進行批處理,又可以進行流處理(實質上是微批處理)。而后Lambda架構,Kappa架構的出現,又提供了一種業務處理的通用架構。
為了提高工作效率我們應該掌握哪些工具:
Ozzie,azkaban:定時任務調度的工具。
Hue,Zepplin:圖形化任務執行管理,結果查看工具。
Scala語言:編寫Spark程序的最佳語言,當然也可以選擇用Python。
Python語言:編寫一些腳本時會用到。
Allluxio,Kylin等:通過對存儲的數據進行預處理,加快運算速度的工具。
感謝各位的閱讀,以上就是“大數據技術應該怎么自學”的內容了,經過本文的學習后,相信大家對大數據技術應該怎么自學這一問題有了更深刻的體會,具體使用情況還需要大家實踐驗證。這里是億速云,小編將為大家推送更多相關知識點的文章,歡迎關注!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。