hive怎么建立表存儲格式

發布時間：2021-07-29 19:32:19 來源：億速云閱讀：241 作者：chen 欄目：云計算

# Hive怎么建立表存儲格式

## 目錄
1. [Hive表存儲格式概述](#hive表存儲格式概述)
2. [常見的存儲格式對比](#常見的存儲格式對比)
   - [TextFile](#textfile)
   - [SequenceFile](#sequencefile)
   - [RCFile](#rcfile)
   - [ORCFile](#orcfile)
   - [Parquet](#parquet)
3. [創建不同存儲格式表的語法](#創建不同存儲格式表的語法)
   - [TextFile格式](#textfile格式)
   - [SequenceFile格式](#sequencefile格式)
   - [RCFile格式](#rcfile格式)
   - [ORCFile格式](#orcfile格式)
   - [Parquet格式](#parquet格式)
4. [存儲格式選擇建議](#存儲格式選擇建議)
5. [性能優化技巧](#性能優化技巧)
6. [實際應用案例](#實際應用案例)
7. [常見問題解答](#常見問題解答)

## Hive表存儲格式概述

Hive作為Hadoop生態系統中的數據倉庫工具，支持多種數據存儲格式。存儲格式的選擇直接影響查詢性能、存儲空間利用率和數據讀寫效率。Hive的表存儲格式決定了數據在HDFS上的物理組織方式，不同的格式有不同的特點和適用場景。

在Hive中，存儲格式主要通過`STORED AS`子句指定，同時可以結合`ROW FORMAT`、`SERDE`等參數進行更精細的控制。選擇合適的存儲格式可以顯著提升Hive作業的執行效率，有時性能差異可達數倍甚至數十倍。

## 常見的存儲格式對比

### TextFile
**特點**：
- 默認存儲格式
- 純文本形式存儲
- 可讀性強，可直接查看內容
- 不支持塊壓縮（只能文件級別壓縮）

**適用場景**：
- 數據交換
- 臨時數據存儲
- 需要人工查看原始數據的場景

### SequenceFile
**特點**：
- 二進制鍵值對存儲格式
- 支持塊壓縮
- 可分割（splitable）
- 比TextFile更緊湊

**適用場景**：
- 需要中間存儲的MapReduce作業
- 小文件合并

### RCFile
**特點**：
- 行列混合存儲（Record Columnar File）
- 先按行分組，再按列存儲
- 壓縮比高
- 支持向量化查詢

**適用場景**：
- 需要列式存儲但Hive版本較舊的場景
- 查詢只涉及部分列的情況

### ORCFile
**特點**：
- 優化的行列式存儲（Optimized RC）
- 支持ACID操作
- 內置輕量級索引（min/max/bloom filter）
- 壓縮比極高
- 支持謂詞下推

**適用場景**：
- Hive主要推薦格式
- 大數據量分析場景
- 需要事務支持的場景

### Parquet
**特點**：
- 列式存儲格式
- 特別適合嵌套數據結構
- 跨生態支持（Spark/Flink等）
- 優秀的壓縮性能

**適用場景**：
- 跨平臺數據共享
- 嵌套數據結構處理
- Spark等生態系統中使用

## 創建不同存儲格式表的語法

### TextFile格式
```sql
CREATE TABLE textfile_table (
  id INT,
  name STRING,
  value DOUBLE
)
ROW FORMAT DELIMITED 
FIELDS TERMINATED BY '\t'
STORED AS TEXTFILE;

SequenceFile格式

CREATE TABLE sequencefile_table (
  id INT,
  name STRING,
  value DOUBLE
)
STORED AS SEQUENCEFILE;

RCFile格式

CREATE TABLE rcfile_table (
  id INT,
  name STRING,
  value DOUBLE
)
STORED AS RCFILE;

ORCFile格式

基礎創建：

CREATE TABLE orc_table (
  id INT,
  name STRING,
  value DOUBLE
)
STORED AS ORC;

帶壓縮設置：

CREATE TABLE orc_compressed_table (
  id INT,
  name STRING,
  value DOUBLE
)
STORED AS ORC
TBLPROPERTIES ("orc.compress"="SNAPPY");

Parquet格式

基礎創建：

CREATE TABLE parquet_table (
  id INT,
  name STRING,
  value DOUBLE
)
STORED AS PARQUET;

帶壓縮設置：

CREATE TABLE parquet_compressed_table (
  id INT,
  name STRING,
  value DOUBLE
)
STORED AS PARQUET
TBLPROPERTIES ("parquet.compression"="GZIP");

存儲格式選擇建議

默認選擇：新項目優先考慮ORC或Parquet
兼容性需求：跨平臺使用優先選擇Parquet
更新頻繁：需要ACID支持選擇ORC
嵌套數據：復雜JSON結構選擇Parquet
臨時數據：中間結果可使用TextFile或SequenceFile
壓縮需求：ORC和Parquet都支持多種壓縮算法

性能優化技巧

壓縮算法選擇：
- ZLIB：高壓縮比，但CPU開銷大
- SNAPPY：平衡選擇，推薦默認使用
- LZO：需要額外安裝，但性能不錯

ORC特定優化：

SET hive.exec.orc.default.compress=ZLIB;
SET hive.exec.orc.default.block.size=268435456; -- 256MB
SET hive.optimize.index.filter=true; -- 啟用索引過濾

Parquet特定優化：

SET parquet.block.size=268435456; -- 256MB塊大小
SET parquet.compression=SNAPPY;
SET hive.parquet.filter.pushdown=true;

通用優化：
- 合理設置文件大?。ㄍǔ?56MB-1GB）
- 對常用查詢列建立合適的索引
- 分區和分桶結合存儲格式使用

實際應用案例

電商日志分析場景

-- 創建ORC格式的分區表
CREATE TABLE user_behavior (
  user_id BIGINT,
  item_id BIGINT,
  behavior_type STRING,
  timestamp BIGINT
)
PARTITIONED BY (dt STRING)
STORED AS ORC
TBLPROPERTIES ("orc.compress"="SNAPPY");

-- 添加分區
ALTER TABLE user_behavior ADD PARTITION (dt='2023-01-01');

物聯網傳感器數據

-- 創建Parquet格式表處理嵌套數據
CREATE TABLE sensor_data (
  device_id STRING,
  location STRUCT<lat:DOUBLE, lon:DOUBLE>,
  readings ARRAY<STRUCT<time:TIMESTAMP, value:DOUBLE>>,
  metadata MAP<STRING,STRING>
)
STORED AS PARQUET;

常見問題解答

Q1: 如何查看現有表的存儲格式？

DESCRIBE FORMATTED table_name;
-- 在輸出結果中查找"Storage DescParams"部分

Q2: 能否修改已有表的存儲格式？ 可以，但需要通過CTAS（Create Table As Select）方式：

CREATE TABLE new_orc_table STORED AS ORC AS SELECT * FROM old_table;

Q3: ORC和Parquet的主要區別是什么？ - ORC是Hive原生格式，對Hive集成更好 - Parquet更適合嵌套數據和跨平臺場景 - ORC支持ACID，Parquet不支持

Q4: 存儲格式會影響Hive SQL語法嗎？ 不會，所有格式都支持相同的SQL語法，只是底層實現效率不同

Q5: 小文件問題如何解決？ - 使用ORC/Parquet格式 - 配置合適的文件大小 - 定期執行合并操作：

  SET hive.merge.smallfiles.avgsize=128000000;
  SET hive.merge.size.per.task=256000000;
  SET hive.exec.dynamic.partition.mode=nonstrict;

通過合理選擇和使用Hive表存儲格式，可以顯著提升大數據處理效率。建議在實際項目中根據具體場景進行基準測試，選擇最適合的存儲方案。 “`

向AI問一下細節