HDFS數據塊大小選擇需綜合以下因素:
- 默認值:Hadoop 2.x/3.x默認128MB,是平衡元數據開銷與并行度的經驗值。
- 按場景調整:
- 小文件多:選64-128MB,減少存儲浪費,避免NameNode壓力過大。
- 大文件/批處理:選256-512MB,提升順序讀寫效率,降低傳輸次數。
- SSD環境:可設256-512MB,利用高傳輸速率。
- 動態監控:通過NameNode內存、Map任務執行時間等指標調整,例如內存>80%時增大塊大小。
- 配置方式:修改
hdfs-site.xml
中dfs.blocksize
參數,支持按目錄單獨設置。
核心原則:在元數據開銷、并行處理能力和硬件特性間找平衡,優先通過測試驗證最優值。