如何用Filebeat進行日志壓縮

Filebeat實現日志壓縮的主要方法

1. 通過processors添加compress處理器（輸入層壓縮）

在Filebeat的filebeat.inputs配置塊中，為目標輸入（如log、filestream）添加compress處理器，指定壓縮編解碼器（如gzip）。Filebeat會在讀取日志文件后、發送至輸出目標前對日志內容進行壓縮，減少傳輸數據量。
示例配置：

filebeat.inputs:
- type: log
  enabled: true
  paths:
    - /var/log/*.log
  processors:
    - compress:
        codec: gzip  # 支持gzip壓縮（Filebeat默認支持的編解碼器）

此方法適用于需要在Filebeat內部完成壓縮的場景，壓縮后的數據直接發送給下游（如Elasticsearch、Logstash）。

2. 配置輸出模塊啟用壓縮（傳輸層壓縮）

若輸出目標（如Elasticsearch、Logstash）支持壓縮，可直接在對應的輸出配置中開啟compress選項。Filebeat會在發送數據至輸出目標前進行壓縮，無需修改輸入配置。

Elasticsearch輸出示例：

output.elasticsearch:
  hosts: ["localhost:9200"]
  compress: true  # 啟用Gzip壓縮

Logstash輸出示例：

output.logstash:
  hosts: ["localhost:5044"]
  compress: true  # 啟用Gzip壓縮

此方法是推薦的做法，因為Elasticsearch和Logstash均原生支持壓縮，能無縫配合Filebeat實現傳輸層壓縮，降低網絡帶寬占用。

3. 結合Logstash實現日志壓縮（中間層處理）

若輸出目標（如Elasticsearch）不支持壓縮，可通過Logstash作為中間層，在Logstash中配置壓縮。具體步驟如下：

配置Filebeat：將日志發送至Logstash（默認端口5044）。
```
output.logstash:
  hosts: ["localhost:5044"]
```

配置Logstash：在Logstash的輸出配置中添加gzip壓縮插件，將數據壓縮后發送至Elasticsearch。

input {
  beats {
    port => 5044
  }
}
output {
  elasticsearch {
    hosts => ["localhost:9200"]
    index => "your_index_name-%{+YYYY.MM.dd}"
    codec => gzip  # 使用gzip壓縮輸出到Elasticsearch
  }
}

此方法適用于需要靈活處理壓縮邏輯的場景，尤其適合已有Logstash pipeline的環境。

4. 利用Elasticsearch索引模板啟用壓縮（存儲層壓縮）

若直接將日志發送至Elasticsearch，可通過創建索引模板，設置索引的codec為best_compression（更高效的壓縮算法），實現日志在Elasticsearch中的存儲壓縮。此方法不影響Filebeat的傳輸過程，僅優化存儲空間。
示例配置（通過curl命令創建模板）：

curl -X PUT "localhost:9200/_template/your_template_name" -H 'Content-Type: application/json' -d'
{
  "index_patterns": ["your_index_name-*"],
  "settings": {
    "index.codec": "best_compression",  # 啟用最佳壓縮（LZ4或DEFLATE）
    "index.number_of_shards": 1,
    "index.number_of_replicas": 1
  }
}'

此方法能顯著減少Elasticsearch的存儲占用，但不會減少Filebeat傳輸的數據量。

5. 排除已壓縮的日志文件（避免重復壓縮）

若日志文件已被其他工具（如logrotate）預先壓縮（如.gz格式），可通過Filebeat的exclude_files選項排除這些文件，防止Filebeat重復壓縮，節省CPU資源。
示例配置：

filebeat.inputs:
- type: log
  enabled: true
  paths:
    - /var/log/*.log
  exclude_files: ["*.gz"]  # 排除所有.gz格式的文件

此方法適用于已有日志壓縮流程的環境，避免Filebeat對已壓縮文件進行無效處理。

注意事項

CPU開銷：啟用壓縮會增加Filebeat的CPU負載，建議在高負載環境中監控CPU使用情況，必要時調整Filebeat的進程優先級或增加資源。
兼容性：確保輸出目標（如Elasticsearch、Logstash）支持對應的壓縮格式（如Gzip），避免因格式不匹配導致數據傳輸失敗。
測試驗證：配置完成后，通過Filebeat的日志（/var/log/filebeat/filebeat）檢查壓縮是否生效，或使用輸出目標的監控工具（如Elasticsearch的索引大?。炞C壓縮效果。