
重點組件:
HDFS:Hadoop 的分布式文件存儲系統
MapReduce:Hadoop 的分布式程序運算框架,也可以叫做一種編程模型
Hive:基于 Hadoop 的類 SQL 數據倉庫工具
HBase:基于 Hadoop 的列式分布式 NoSQL 數據庫
ZooKeeper:分布式協調服務組件
Mahout:基于 MapReduce/Flink/Spark 等分布式運算框架的機器學習算法庫
Oozie/Azkaban:工作流調度引擎
Sqoop:數據遷入遷出工具
Flume:日志采集工具
數據的處理流程:
A、數據采集:定制開發采集程序,或使用開源框架 Flume 或者 LogStash
B、數據預處理:定制開發 MapReduce 程序運行于 Hadoop 集群,或者專門數據收集工具也能進行數據預處理
C、數據倉庫技術:基于 Hadoop 之上的 Hive
D、數據導出:基于 Hadoop 的 Sqoop 數據導入導出工具
E、數據可視化:定制開發 web 程序或使用 Kettle 等產品
F、數據統計分析:Hadoop 中的 MapReduce 或者基于 Hadoop 的 Hive,或者 Spark,Flink
G、整個過程的流程調度:Hadoop 生態圈中的 Oozie/Azkaban 工具或其他類似開源產品
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。