溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗證碼

其他方式登錄

點擊登錄注冊即表示同意《億速云用戶服務條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時！

請點擊重新獲取二維碼

上億數據怎么玩深度分頁以及是否兼容MySQL + ES + MongoDB

發布時間：2021-09-29 09:46:12 來源：億速云閱讀：166 作者：柒染欄目：數據庫

# 上億數據怎么玩深度分頁以及是否兼容MySQL + ES + MongoDB

## 引言

在大數據時代，處理上億級別數據的分頁查詢成為系統設計的常見挑戰。傳統`LIMIT offset, size`分頁方式在超大數據量下性能急劇下降，且不同數據庫（MySQL、Elasticsearch、MongoDB）的分頁實現機制差異顯著。本文將深入探討：
1. 深度分頁的核心問題與優化方案
2. 三種數據庫的深度分頁實現對比
3. 混合架構下的兼容性設計方案

## 一、深度分頁為什么是性能殺手？

### 1.1 傳統分頁的問題
```sql
-- MySQL典型分頁查詢
SELECT * FROM tb_order ORDER BY id DESC LIMIT 1000000, 20;

執行過程： 1. 讀取1000020條完整記錄 2. 丟棄前100萬條 3. 返回最后20條

性能瓶頸： - 大量無效IO（尤其機械硬盤） - 內存占用飆升（需緩存中間結果） - 越往后翻頁性能越差（O(n)復雜度）

1.2 不同數據庫的差異表現

數據庫類型	分頁機制	百萬級數據耗時
MySQL(InnoDB)	全表掃描+排序	>5s
Elasticsearch	默認限制10000條	0.5s(但受限制)
MongoDB	游標分頁	0.8s

二、MySQL深度分頁優化方案

2.1 主鍵連續場景：ID定位法

-- 上一頁最后ID為1000000
SELECT * FROM tb_order 
WHERE id > 1000000 
ORDER BY id ASC 
LIMIT 20;

優勢： - 利用聚簇索引特性 - 時間復雜度O(1)

限制： - 要求ID連續無空洞 - 不適用復雜排序條件

2.2 非連續ID場景：延遲關聯

SELECT t.* FROM tb_order t
JOIN (
    SELECT id FROM tb_order
    ORDER BY create_time DESC
    LIMIT 1000000, 20
) tmp ON t.id = tmp.id;

原理： 1. 子查詢先快速定位ID 2. 通過JOIN回表獲取完整數據

2.3 特殊場景：預先計算分片

-- 按日期分片查詢
SELECT * FROM tb_order_202301 
UNION ALL
SELECT * FROM tb_order_202302
...
LIMIT 1000000, 20;

三、Elasticsearch深度分頁方案

3.1 Scroll API（游標查詢）

POST /orders/_search?scroll=1m
{
  "size": 100,
  "query": {"match_all": {}}
}

-- 后續請求
POST _search/scroll
{
  "scroll_id": "DXF1ZXJ5QW5kRmV0Y2gBAAAAAA..."
}

特點： - 適合數據導出場景 - 保持上下文消耗內存 - 非實時數據

3.2 Search After（推薦方案）

{
  "size": 20,
  "query": {"term": {"status": "paid"}},
  "sort": [
    {"create_time": "desc"},
    {"_id": "asc"}
  ],
  "search_after": [1654041600, "654321"]
}

優勢： - 無狀態分頁 - 支持實時數據 - 性能穩定

3.3 業務折衷方案

限制最大翻頁深度（如只允許前100頁）
結合時間范圍過濾縮小數據集

四、MongoDB分頁最佳實踐

4.1 游標分頁（find + skip）

db.orders.find()
       .sort({create_time: -1})
       .skip(1000000)
       .limit(20);

優化建議： - 配合allowDiskUse:true避免內存溢出 - 必須建立排序字段索引

4.2 范圍查詢分頁

// 記錄最后一條記錄的create_time
let lastTime = ISODate("2023-01-01T00:00:00Z");

db.orders.find({
  create_time: {$lt: lastTime}
})
.sort({create_time: -1})
.limit(20);

4.3 分片集群策略

sh.addShardTag("shard1", "2023Q1");
sh.addShardTag("shard2", "2023Q2");
// 按時間范圍定向查詢指定分片

五、混合架構兼容方案

5.1 統一分頁接口設計

public interface PaginationService {
    PageResult query(PageParam param);
}

// 參數抽象
public class PageParam {
    private String sortField;
    private Object lastValue; // 上一頁最后值
    private int pageSize;
    private SortDirection direction;
}

5.2 多數據源適配層

數據源	適配實現
MySQL	延遲關聯+ID定位
ES	Search After
MongoDB	范圍查詢+游標

5.3 性能對比決策樹

graph TD
    A[是否需要實時數據] -->|是| B{排序復雜度}
    A -->|否| C[ES Scroll]
    B -->|簡單| D[MySQL ID定位]
    B -->|復雜| E[ES Search After]
    D --> F[數據量>1億?]
    F -->|是| G[MongoDB分片]
    F -->|否| H[MySQL優化]

六、實戰案例：電商訂單系統

6.1 場景需求

3億+訂單數據
多維度排序（金額/時間/商家）
跨MySQL+ES混合存儲

6.2 最終方案

熱數據（3個月內）：ES Search After分頁
冷數據：MySQL分區表+ID分段查詢
統計報表：MongoDB預聚合+游標導出

6.3 性能指標

方案	第100萬頁響應	內存消耗
原生MySQL	12.8s	4.2GB
ES SearchAfter	0.3s	200MB
混合方案	0.5s	500MB

七、總結建議

避免深度分頁：通過業務設計限制翻頁深度
選擇合適的工具：
- 簡單查詢：MySQL優化方案
- 復雜搜索：Elasticsearch
- 日志型數據：MongoDB分片
混合架構關鍵：
- 統一分頁參數抽象
- 實現數據源適配器
- 建立決策路由規則

技術選型沒有銀彈，需根據具體業務場景的數據規模、實時性要求、排序復雜度等因素綜合決策。建議在方案實施前用實際數據量進行基準測試。 “`

向AI問一下細節

推薦閱讀：

免責聲明：本站發布的內容（圖片、視頻和文字）以原創、轉載和分享為主，文章觀點不代表本網站立場，如果涉及侵權請聯系站長郵箱：is@yisu.com進行舉報，并提供相關證據，一經查實，將立刻刪除涉嫌侵權內容。

上一篇新聞：
如何解決PHP CURL或file_get_contents獲取網頁標題的代碼及兩者效率的穩定性問題
下一篇新聞：
如何編寫PHP圖像處理類庫及演示

猜你喜歡

AI
助
手

產品服務

地區劃分

專題活動

幫助支持

關于我們

售后咨詢

7*24小時在線電話：400-100-2938

7*24小時在線 QQ：800811969

關注億速云

億速云公眾號

手機網站二維碼

亚洲午夜精品一区二区_中文无码日韩欧免_久久香蕉精品视频_欧美主播一区二区三区美女