溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

hadoop生態的大體介紹

發布時間:2020-07-06 04:54:32 來源:網絡 閱讀:508 作者:原生zzy 欄目:大數據

hadoop生態的大體介紹
重點組件:
HDFS:Hadoop 的分布式文件存儲系統
MapReduce:Hadoop 的分布式程序運算框架,也可以叫做一種編程模型
Hive:基于 Hadoop 的類 SQL 數據倉庫工具
HBase:基于 Hadoop 的列式分布式 NoSQL 數據庫
ZooKeeper:分布式協調服務組件
Mahout:基于 MapReduce/Flink/Spark 等分布式運算框架的機器學習算法庫
Oozie/Azkaban:工作流調度引擎
Sqoop:數據遷入遷出工具
Flume:日志采集工具

數據的處理流程:
hadoop生態的大體介紹
A、數據采集:定制開發采集程序,或使用開源框架 Flume 或者 LogStash
B、數據預處理:定制開發 MapReduce 程序運行于 Hadoop 集群,或者專門數據收集工具也能進行數據預處理
C、數據倉庫技術:基于 Hadoop 之上的 Hive
D、數據導出:基于 Hadoop 的 Sqoop 數據導入導出工具
E、數據可視化:定制開發 web 程序或使用 Kettle 等產品
F、數據統計分析:Hadoop 中的 MapReduce 或者基于 Hadoop 的 Hive,或者 Spark,Flink
G、整個過程的流程調度:Hadoop 生態圈中的 Oozie/Azkaban 工具或其他類似開源產品

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

亚洲午夜精品一区二区_中文无码日韩欧免_久久香蕉精品视频_欧美主播一区二区三区美女