如何相容於 MySQL + ES + MongoDB 實現上億資料的深度分頁？-php教程-PHP中文網

首頁

後端開發

php教程

如何相容於 MySQL + ES + MongoDB 實現上億資料的深度分頁？

Guanhui

Jul 27, 2020 pm 05:24 PM

mysql

「訪談問題& 真實經驗

面試題：在資料量很大的情況下，怎麼實現深度分頁？大家在面試時，或是準備面試中可能會遇到上述的問題，大多的回答基本上是分庫分錶建索引，這是一種很標準的正確回答，但現實總是很骨感，所以面試官通常會追問你一句，現在工期不足，人員不足，該怎麼實現深度分頁？

這時候沒有實際經驗的同學基本麻爪，So，請聽我娓娓道來。

慘痛的教訓如何相容於 MySQL + ES + MongoDB 實現上億資料的深度分頁？

首先必須明確一點：深度分頁可以做，但深度隨機跳頁絕對需要禁止。

上一張圖：

你猜，我點第142360頁，服務會不會爆炸？

像MySQL，MongoDB資料庫還好，本身就是專業的資料庫，處理的不好，最多就是慢，但如果涉及到ES，性質就不一樣了，我們只好利用SearchAfter Api，去循環取得數據，這就牽扯到記憶體佔用的問題，如果當時程式碼寫的不優雅，直接就可能導致記憶體溢出。

為什麼不能允許隨機深度跳頁

從技術的角度淺顯的聊一聊為什麼不能允許隨機深度跳頁，或者說為什麼不建議深度分頁

MySQL

分頁的基本原理：

SELECT * FROM test ORDER BY id DESC LIMIT 10000, 20;

LIMIT 10000 , 20的意思掃描滿足條件的10020行，丟掉前面的10000行，返回最後的20行。如果是LIMIT 1000000 , 100，需要掃描1000100 行，在一個高並發的應用程式裡，每次查詢需要掃描超過100W行，不炸才怪。

MongoDB

分頁的基本原理：

db.t_data.find().limit(5).skip(5);

同樣的，隨著頁碼的增大，skip 跳過的項目也會隨之變大，而這個操作是透過cursor 的迭代器來實現的，對於cpu的消耗會非常明顯，當頁碼非常大時且頻繁時，必然爆炸。

ElasticSearch
查詢流程：
如查詢第501頁，每頁10條，客戶端傳送請求到某節點
此節點將數據廣播到各個分片，各分片各自查詢前5010 條數據

#查詢結果返回至該節點，然後對數據進行整合，取出前5010 條數據

回傳給客戶端

由此可以看出為什麼要限制偏移量，另外，如果使用Search After 這種捲動式API進行深度跳頁查詢，也是一樣需要每次滾動幾千條，可能一共需要滾動上百萬，千萬條數據，就為了最後的20條數據，效率可想而知。

再一次和產品對線

俗話說的好，技術解決不了的問題，就由業務來解決！

在實習的時候信了產品的邪，必須實現深度分頁跳頁，如今必須撥亂反正，業務上必須有如下更改：如何相容於 MySQL + ES + MongoDB 實現上億資料的深度分頁？

盡可能的增加默認的篩選條件，如：時間週期，目的是為了減少資料量的展示

修改跳頁的展現方式，改為滾動顯示，或小範圍跳頁

如何相容於 MySQL + ES + MongoDB 實現上億資料的深度分頁？滾動顯示參考圖：

小規模跳頁參考圖：

通用解決方案
#短時間內快速解決的方案主要是以下幾點：
必備：對排序字段，篩選條件務必設定好索引

#核心：利用小範圍頁碼的已知數據，或捲動載入的已知數據，減少偏移量

額外：如果遇到不好處理的情況，也可以取得多餘的數據，進行一定的截取，效能影響並不大

#######MySQL#########原分頁SQL：###

# 第一页
SELECT * FROM `year_score` where `year` = 2017 ORDER BY id limit 0, 20;
# 第N页
SELECT * FROM `year_score` where `year` = 2017 ORDER BY id limit (N - 1) * 20, 20;

###透過上下文關係，改寫為：###

# XXXX 代表已知的数据
SELECT * FROM `year_score` where `year` = 2017 and id > XXXX ORDER BY id limit 20;

在没内鬼，来点干货！SQL优化和诊断一文中提到过，LIMIT会在满足条件下停止查询，因此该方案的扫描总量会急剧减少，效率提升Max！

方案和MySQL相同，此时我们就可以随用所欲的使用 FROM-TO Api，而且不用考虑最大限制的问题。

MongoDB

方案基本类似，基本代码如下：

如何相容於 MySQL + ES + MongoDB 實現上億資料的深度分頁？

相关性能测试：

如何相容於 MySQL + ES + MongoDB 實現上億資料的深度分頁？

如果非要深度随机跳页

如果你没有杠过产品经理，又该怎么办呢，没关系，还有一丝丝的机会。

在 SQL优化一文中还提到过MySQL深度分页的处理技巧，代码如下：

# 反例（耗时129.570s）
select * from task_result LIMIT 20000000, 10;
# 正例（耗时5.114s）
SELECT a.* FROM task_result a, (select id from task_result LIMIT 20000000, 10) b where a.id = b.id;
# 说明
# task_result表为生产环境的一个表，总数据量为3400万，id为主键，偏移量达到2000万

该方案的核心逻辑即基于聚簇索引，在不通过回表的情况下，快速拿到指定偏移量数据的主键ID，然后利用聚簇索引进行回表查询，此时总量仅为10条，效率很高。

因此我们在处理MySQL，ES，MongoDB时，也可以采用一样的办法：

限制获取的字段，只通过筛选条件，深度分页获取主键ID
通过主键ID定向查询需要的数据

瑕疵：当偏移量非常大时，耗时较长，如文中的 5s

推荐教程：《MySQL教程》

文章来源：https://juejin.im/post/5f0de4d06fb9a07e8a19a641

以上是如何相容於 MySQL + ES + MongoDB 實現上億資料的深度分頁？的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：juejin。如有侵權，請聯絡admin@php.cn刪除

PHP：服務器端腳本語言的簡介Apr 16, 2025 am 12:18 AM

PHP是一種服務器端腳本語言，用於動態網頁開發和服務器端應用程序。 1.PHP是一種解釋型語言，無需編譯，適合快速開發。 2.PHP代碼嵌入HTML中，易於網頁開發。 3.PHP處理服務器端邏輯，生成HTML輸出，支持用戶交互和數據處理。 4.PHP可與數據庫交互，處理表單提交，執行服務器端任務。

PHP和網絡：探索其長期影響Apr 16, 2025 am 12:17 AM

PHP在過去幾十年中塑造了網絡，並將繼續在Web開發中扮演重要角色。 1)PHP起源於1994年，因其易用性和與MySQL的無縫集成成為開發者首選。 2)其核心功能包括生成動態內容和與數據庫的集成，使得網站能夠實時更新和個性化展示。 3)PHP的廣泛應用和生態系統推動了其長期影響，但也面臨版本更新和安全性挑戰。 4)近年來的性能改進，如PHP7的發布，使其能與現代語言競爭。 5)未來，PHP需應對容器化、微服務等新挑戰，但其靈活性和活躍社區使其具備適應能力。

為什麼要使用PHP？解釋的優點和好處Apr 16, 2025 am 12:16 AM

PHP的核心優勢包括易於學習、強大的web開發支持、豐富的庫和框架、高性能和可擴展性、跨平台兼容性以及成本效益高。 1)易於學習和使用，適合初學者；2)與web服務器集成好，支持多種數據庫；3)擁有如Laravel等強大框架；4)通過優化可實現高性能；5)支持多種操作系統；6)開源，降低開發成本。

揭穿神話：PHP真的是一種死語嗎？Apr 16, 2025 am 12:15 AM

PHP沒有死。 1)PHP社區積極解決性能和安全問題，PHP7.x提升了性能。 2)PHP適合現代Web開發，廣泛用於大型網站。 3)PHP易學且服務器表現出色，但類型系統不如靜態語言嚴格。 4)PHP在內容管理和電商領域仍重要，生態系統不斷進化。 5)通過OPcache和APC等優化性能，使用OOP和設計模式提升代碼質量。

PHP與Python辯論：哪個更好？Apr 16, 2025 am 12:03 AM

PHP和Python各有優劣，選擇取決於項目需求。 1)PHP適合Web開發，易學，社區資源豐富，但語法不夠現代，性能和安全性需注意。 2)Python適用於數據科學和機器學習，語法簡潔，易學，但執行速度和內存管理有瓶頸。

PHP的目的：構建動態網站Apr 15, 2025 am 12:18 AM

PHP用於構建動態網站，其核心功能包括：1.生成動態內容，通過與數據庫對接實時生成網頁；2.處理用戶交互和表單提交，驗證輸入並響應操作；3.管理會話和用戶認證，提供個性化體驗；4.優化性能和遵循最佳實踐，提升網站效率和安全性。

PHP：處理數據庫和服務器端邏輯Apr 15, 2025 am 12:15 AM

PHP在數據庫操作和服務器端邏輯處理中使用MySQLi和PDO擴展進行數據庫交互，並通過會話管理等功能處理服務器端邏輯。 1）使用MySQLi或PDO連接數據庫，執行SQL查詢。 2）通過會話管理等功能處理HTTP請求和用戶狀態。 3）使用事務確保數據庫操作的原子性。 4）防止SQL注入，使用異常處理和關閉連接來調試。 5）通過索引和緩存優化性能，編寫可讀性高的代碼並進行錯誤處理。