Hive 是一個基于 Hadoop 的分布式數據倉庫,可以對大規模數據進行存儲、查詢和分析
CREATE TABLE
語句來定義表的結構,包括字段名、數據類型等。CREATE TABLE example_table (
id INT,
name STRING,
age INT,
salary FLOAT
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
STORED AS TEXTFILE;
LOAD DATA
語句從本地文件系統或其他存儲系統中加載數據。LOAD DATA LOCAL INPATH '/path/to/your/data.csv' INTO TABLE example_table;
SELECT
語句和聚合函數(如 AVG()
、MAX()
、MIN()
等)來處理數據。-- 去除空值
SELECT * FROM example_table WHERE id IS NOT NULL AND name IS NOT NULL AND age IS NOT NULL AND salary IS NOT NULL;
-- 去除重復值
SELECT DISTINCT * FROM example_table;
-- 數據類型轉換
SELECT CAST(id AS STRING) AS id, name, age, salary FROM example_table;
REGEXP_EXTRACT()
、CASE WHEN()
等,可以幫助你進行更復雜的數據清洗操作。-- 使用 REGEXP_EXTRACT() 提取字符串的一部分
SELECT REGEXP_EXTRACT(name, '(\w+)', 1) AS first_name, last_name, age, salary FROM example_table;
-- 使用 CASE WHEN() 進行條件過濾
SELECT id, name, age, salary
FROM example_table
WHERE CASE WHEN age >= 18 THEN 'Adult' ELSE 'Minor' END = 'Adult';
-- 分區
CREATE TABLE example_table_partitioned (
id INT,
name STRING,
age INT,
salary FLOAT
)
PARTITIONED BY (country STRING);
-- 分桶
CREATE TABLE example_table_bucketed (
id INT,
name STRING,
age INT,
salary FLOAT
)
CLUSTERED BY (id) INTO 10 BUCKETS;
總之,在 Hive 中進行數據清洗需要創建表、加載數據、使用內置函數、分區、分桶以及使用 MapReduce 或 Spark 進行更復雜的處理。通過這些操作,你可以對大規模數據進行有效的清洗和預處理。