Ubuntu下Hadoop通過**HDFS(分布式文件系統)**存儲數據,核心機制如下:
- 架構:由NameNode(管理元數據)、DataNode(存儲數據塊)、Secondary NameNode(輔助合并元數據)組成。
- 數據存儲:文件被切分為固定大小的數據塊(默認128MB),分布式存儲在多個DataNode上,每個塊默認保留3個副本,保障高容錯性。
- 讀寫流程:客戶端通過NameNode獲取數據塊位置,直接與DataNode交互讀寫數據。
- 高可用性:通過副本機制和NameNode的元數據管理,實現故障自動恢復。
配置時需安裝Java環境、下載Hadoop并配置核心文件(如core-site.xml
、hdfs-site.xml
),啟動后可通過命令行操作HDFS。