溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗證碼

其他方式登錄

點擊登錄注冊即表示同意《億速云用戶服務條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時！

請點擊重新獲取二維碼

SQL Hive中的Select Fromsql怎么使用

發布時間：2022-02-16 10:10:21 來源：億速云閱讀：215 作者：iii 欄目：開發技術

# SQL Hive中的Select From語句使用詳解

## 1. Hive SQL基礎概述

Apache Hive是構建在Hadoop之上的數據倉庫工具，它提供了類似SQL的查詢語言——HiveQL（簡稱HQL），允許用戶對存儲在HDFS中的大規模數據集進行查詢和分析。其中`SELECT FROM`語句作為最基礎且核心的查詢語法，承擔著數據檢索的重要功能。

### 1.1 Hive與傳統SQL的異同

相同點：
- 語法結構高度相似
- 支持標準SQL操作（SELECT, JOIN, WHERE等）
- 使用表、列等關系型概念

不同點：
- Hive處理PB級數據，傳統SQL通常處理GB/TB級
- Hive執行延遲較高（分鐘級），傳統SQL是毫秒級響應
- Hive底層是MapReduce/Tez/Spark作業

## 2. 基本SELECT FROM語法結構

### 2.1 最簡查詢形式

```sql
SELECT column1, column2 
FROM database_name.table_name;

示例：

SELECT employee_id, name 
FROM hr.employees;

2.2 完整語法框架

SELECT [ALL | DISTINCT] select_expr, select_expr, ...
FROM table_reference
[WHERE where_condition]
[GROUP BY col_list]
[HAVING having_condition]
[ORDER BY col_list]
[CLUSTER BY col_list | [DISTRIBUTE BY col_list] [SORT BY col_list]]
[LIMIT number];

3. 字段選擇與處理

3.1 選擇特定列

-- 選擇單列
SELECT product_name FROM products;

-- 選擇多列
SELECT product_id, category, price FROM products;

3.2 使用通配符

-- 選擇所有列（生產環境慎用）
SELECT * FROM sales_records;

-- 選擇特定前綴的列
SELECT sales.* FROM sales_2023 sales;

3.3 列別名(AS)

SELECT 
    user_id AS id,
    registration_date AS reg_date
FROM users;

3.4 計算字段

SELECT 
    product_id,
    quantity,
    price,
    quantity * price AS total_amount
FROM order_items;

4. 條件篩選(WHERE子句)

4.1 基本比較運算符

-- 數值比較
SELECT * FROM products WHERE price > 100;

-- 字符串比較
SELECT * FROM customers WHERE name = '張三';

-- 日期比較
SELECT * FROM orders WHERE order_date >= '2023-01-01';

4.2 邏輯運算符

-- AND 運算符
SELECT * FROM employees 
WHERE department = 'Sales' AND salary > 5000;

-- OR 運算符
SELECT * FROM products 
WHERE category = 'Electronics' OR category = 'Appliances';

-- NOT 運算符
SELECT * FROM customers 
WHERE NOT (age BETWEEN 18 AND 30);

4.3 特殊條件表達式

-- IN 操作符
SELECT * FROM products 
WHERE category IN ('Books', 'Music', 'Movies');

-- BETWEEN 范圍查詢
SELECT * FROM transactions 
WHERE amount BETWEEN 100 AND 1000;

-- LIKE 模糊匹配
SELECT * FROM users 
WHERE email LIKE '%@gmail.com';

-- IS NULL 空值判斷
SELECT * FROM employees 
WHERE manager_id IS NULL;

5. 結果排序(ORDER BY)

5.1 單列排序

-- 默認升序(ASC)
SELECT * FROM products 
ORDER BY price;

-- 顯式降序
SELECT * FROM sales 
ORDER BY sale_date DESC;

5.2 多列排序

SELECT employee_id, name, department, salary
FROM employees
ORDER BY department ASC, salary DESC;

5.3 排序限制

-- 獲取價格最高的10個產品
SELECT * FROM products 
ORDER BY price DESC 
LIMIT 10;

6. 分組聚合(GROUP BY)

6.1 基本分組

-- 按部門統計員工數
SELECT department, COUNT(*) AS emp_count
FROM employees
GROUP BY department;

6.2 聚合函數

常用聚合函數： - COUNT() - 計數 - SUM() - 求和 - AVG() - 平均值 - MAX()/MIN() - 最大/最小值 - VARIANCE()/STDDEV() - 方差/標準差

示例：

SELECT 
    product_category,
    AVG(price) AS avg_price,
    MAX(price) AS max_price,
    COUNT(*) AS product_count
FROM products
GROUP BY product_category;

6.3 HAVING子句

-- 篩選平均價格大于100的類別
SELECT 
    category,
    AVG(price) AS avg_price
FROM products
GROUP BY category
HAVING avg_price > 100;

7. 高級SELECT特性

7.1 DISTINCT去重

-- 獲取唯一的部門列表
SELECT DISTINCT department FROM employees;

-- 多列去重
SELECT DISTINCT department, job_title FROM employees;

7.2 CASE WHEN條件表達式

SELECT 
    product_id,
    price,
    CASE 
        WHEN price > 1000 THEN 'Premium'
        WHEN price > 500 THEN 'Standard'
        ELSE 'Budget'
    END AS price_tier
FROM products;

7.3 窗口函數(分析函數)

-- 計算部門內薪資排名
SELECT 
    employee_id,
    name,
    department,
    salary,
    RANK() OVER (PARTITION BY department ORDER BY salary DESC) AS dept_rank
FROM employees;

8. Hive特有語法

8.1 分區查詢優化

-- 查詢特定分區的數據
SELECT * FROM sales 
WHERE dt = '2023-01-15' AND region = 'North';

-- 動態分區查詢
SET hive.exec.dynamic.partition=true;
SET hive.exec.dynamic.partition.mode=nonstrict;

8.2 分桶查詢

-- 創建分桶表
CREATE TABLE bucketed_users (
    id INT,
    name STRING
) CLUSTERED BY (id) INTO 4 BUCKETS;

-- 分桶查詢
SELECT * FROM bucketed_users 
TABLESAMPLE(BUCKET 1 OUT OF 4 ON id);

8.3 抽樣查詢

-- 數據塊抽樣
SELECT * FROM large_table TABLESAMPLE(10 PERCENT);

-- 行數抽樣
SELECT * FROM large_table TABLESAMPLE(100 ROWS);

9. 性能優化技巧

列裁剪：只選擇需要的列，避免SELECT *
分區裁剪：充分利用分區字段進行過濾
合理使用JOIN：小表JOIN大表，使用MAP JOIN
避免復雜表達式：在WHERE子句中
設置并行執行：SET hive.exec.parallel=true;

10. 實際應用示例

10.1 電商數據分析

-- 分析每月銷售趨勢
SELECT 
    DATE_FORMAT(order_date, 'yyyy-MM') AS month,
    COUNT(DISTINCT order_id) AS order_count,
    SUM(amount) AS total_sales,
    AVG(amount) AS avg_order_value
FROM orders
WHERE order_date BETWEEN '2022-01-01' AND '2022-12-31'
GROUP BY DATE_FORMAT(order_date, 'yyyy-MM')
ORDER BY month;

10.2 用戶行為分析

-- 識別高價值用戶
SELECT 
    user_id,
    COUNT(DISTINCT session_id) AS session_count,
    SUM(CASE WHEN page_type = 'purchase' THEN 1 ELSE 0 END) AS purchase_count,
    SUM(duration) AS total_time_spent
FROM user_sessions
GROUP BY user_id
HAVING purchase_count >= 3
ORDER BY total_time_spent DESC
LIMIT 100;

11. 常見問題排查

數據傾斜：使用SKEW JOIN優化

SET hive.optimize.skewjoin=true;
SET hive.skewjoin.key=100000;

內存不足：調整Reducer數量
```
SET mapreduce.job.reduces=200;
```

小文件問題：合并輸出

SET hive.merge.mapfiles=true;
SET hive.merge.size.per.task=256000000;

12. 總結

Hive的SELECT FROM語句作為數據查詢的基石，雖然語法與傳統SQL相似，但在大數據環境下有其獨特的優化方式和執行特性。掌握其使用方法和優化技巧，能夠顯著提升海量數據查詢的效率。隨著Hive版本的迭代，更多現代SQL特性如CTE、高級窗口函數等也被逐步支持，使得HiveQL在處理復雜分析場景時更加得心應手。

注意：實際使用時請根據具體Hive版本調整語法，本文示例基于Hive 3.x版本。 “`

這篇文章共計約2900字，全面介紹了Hive中SELECT FROM語句的使用方法，從基礎語法到高級特性，包含了大量實用示例和優化建議。內容采用Markdown格式，包含代碼塊、列表、標題等標準元素，適合技術文檔的編寫和閱讀。

向AI問一下細節

推薦閱讀：

免責聲明：本站發布的內容（圖片、視頻和文字）以原創、轉載和分享為主，文章觀點不代表本網站立場，如果涉及侵權請聯系站長郵箱：is@yisu.com進行舉報，并提供相關證據，一經查實，將立刻刪除涉嫌侵權內容。

上一篇新聞：
SQLite事務的屬性有哪些
下一篇新聞：
Centos7.7中怎么安裝SQL Server

猜你喜歡

AI
助
手

產品服務

地區劃分

專題活動

幫助支持

關于我們

售后咨詢

7*24小時在線電話：400-100-2938

7*24小時在線 QQ：800811969

關注億速云

億速云公眾號

手機網站二維碼

亚洲午夜精品一区二区_中文无码日韩欧免_久久香蕉精品视频_欧美主播一区二区三区美女