HDFS的數據壓縮策略主要涉及壓縮算法選擇、配置方式及適用場景,具體如下:
常用壓縮算法
配置方式 在hdfs-site.xml中通過io.compression.codecs參數指定支持的壓縮算法類(如org.apache.hadoop.io.compress.SnappyCodec),需重啟集群生效。
hdfs-site.xml
io.compression.codecs
org.apache.hadoop.io.compress.SnappyCodec
選擇建議