Hive支持多種復雜數據類型,如數組(ARRAY)、結構體(STRUCT)、Map等
假設我們有一個表user_info
,其中有一個數組類型的列hobbies
,包含用戶的興趣愛好。
CREATE TABLE user_info (
id INT,
name STRING,
hobbies ARRAY<STRING>
);
要統計每個用戶的興趣愛好數量,可以使用explode
函數將數組展開,然后使用GROUP BY
和COUNT
函數進行統計。
SELECT
id,
name,
COUNT(hobby) AS hobby_count
FROM
(SELECT
id,
name,
explode(hobbies) AS hobby
FROM
user_info) sub
GROUP BY
id,
name;
假設我們有一個表user_info
,其中有一個結構體類型的列address
,包含用戶的地址信息。
CREATE TABLE user_info (
id INT,
name STRING,
address STRUCT<street:STRING, city:STRING, state:STRING, zip:STRING>
);
要統計每個用戶的地址信息數量,可以使用LATERAL VIEW
和EXPLODE
函數將結構體展開,然后使用GROUP BY
和COUNT
函數進行統計。
SELECT
id,
name,
COUNT(address_item) AS address_count
FROM
user_info
LATERAL VIEW
explode(STRUCT_COLUMNS(address)) address_items AS address_item
GROUP BY
id,
name;
假設我們有一個表user_info
,其中有一個Map類型的列extra_info
,包含用戶的額外信息。
CREATE TABLE user_info (
id INT,
name STRING,
extra_info MAP<STRING, STRING>
);
要統計每個用戶的額外信息數量,可以使用LATERAL VIEW
和EXPLODE
函數將Map展開,然后使用GROUP BY
和COUNT
函數進行統計。
SELECT
id,
name,
COUNT(extra_info_item) AS extra_info_count
FROM
user_info
LATERAL VIEW
explode(extra_info) extra_info_items AS extra_info_item
GROUP BY
id,
name;
這些示例展示了如何使用Hive處理復雜數據類型并進行數據統計。根據實際需求和數據類型,可以靈活運用這些方法。