如何兼容 MySQL + ES + MongoDB 实现上亿数据的深度分页？-php教程-PHP中文网

首页

后端开发

php教程

如何兼容 MySQL + ES + MongoDB 实现上亿数据的深度分页？

Guanhui

Jul 27, 2020 pm 05:24 PM

mysql

面试题 & 真实经历

面试题：在数据量很大的情况下，怎么实现深度分页？

大家在面试时，或者准备面试中可能会遇到上述的问题，大多的回答基本上是分库分表建索引，这是一种很标准的正确回答，但现实总是很骨感，所以面试官一般会追问你一句，现在工期不足，人员不足，该怎么实现深度分页？

这个时候没有实际经验的同学基本麻爪，So，请听我娓娓道来。

惨痛的教训

首先必须明确一点：深度分页可以做，但是ac48bac2b8b96521dcd0023c5193ba8e深度随机跳页绝对需要禁止。e6e38b3c62e8df885fe2e3986461aa63

上一张图：

你们猜，我点一下第142360页，服务会不会爆炸？

像MySQL，MongoDB数据库还好，本身就是专业的数据库，处理的不好，最多就是慢，但如果涉及到ES，性质就不一样了，我们不得不利用 SearchAfter Api，去循环获取数据，这就牵扯到内存占用的问题，如果当时代码写的不优雅，直接就可能导致内存溢出。

为什么不能允许随机深度跳页

从技术的角度浅显的聊一聊为什么不能允许随机深度跳页，或者说为什么不建议深度分页

MySQL

分页的基本原理：

SELECT * FROM test ORDER BY id DESC LIMIT 10000, 20;

LIMIT 10000 , 20的意思扫描满足条件的10020行，扔掉前面的10000行，返回最后的20行。如果是LIMIT 1000000 , 100，需要扫描1000100 行，在一个高并发的应用里，每次查询需要扫描超过100W行，不炸才怪。

MongoDB

分页的基本原理：

db.t_data.find().limit(5).skip(5);

同样的，随着页码的增大，skip 跳过的条目也会随之变大，而这个操作是通过 cursor 的迭代器来实现的，对于cpu的消耗会非常明显，当页码非常大时且频繁时，必然爆炸。

ElasticSearch

从业务的角度来说，ElasticSearch不是典型的数据库，它是一个搜索引擎，如果在筛选条件下没有搜索出想要的数据，继续深度分页也不会找到想要的数据，退一步讲，假如我们把ES作为数据库来使用进行查询，在进行分页的时候一定会遇到max_result_window 的限制，看到没，官方都告诉你最大偏移量限制是一万。

查询流程：

如查询第501页，每页10条，客户端发送请求到某节点
此节点将数据广播到各个分片，各分片各自查询前 5010 条数据
查询结果返回至该节点，然后对数据进行整合，取出前 5010 条数据
返回给客户端

由此可以看出为什么要限制偏移量，另外，如果使用 Search After 这种滚动式API进行深度跳页查询，也是一样需要每次滚动几千条，可能一共需要滚动上百万，千万条数据，就为了最后的20条数据，效率可想而知。

再次和产品对线

俗话说的好，技术解决不了的问题，就由业务来解决！

在实习的时候信了产品的邪，必须实现深度分页 + 跳页，如今必须拨乱反正，业务上必须有如下更改：

尽可能的增加默认的筛选条件，如：时间周期，目的是为了减少数据量的展示

修改跳页的展现方式，改为滚动显示，或小范围跳页

滚动显示参考图：

小规模跳页参考图：

通用解决方案

短时间内快速解决的方案主要是以下几点：

必备：对排序字段，筛选条件务必设置好索引
核心：利用小范围页码的已知数据，或者滚动加载的已知数据，减少偏移量
额外：如果遇到不好处理的情况，也可以获取多余的数据，进行一定的截取，性能影响并不大

MySQL

原分页SQL：

# 第一页
SELECT * FROM `year_score` where `year` = 2017 ORDER BY id limit 0, 20;
# 第N页
SELECT * FROM `year_score` where `year` = 2017 ORDER BY id limit (N - 1) * 20, 20;

通过上下文关系，改写为：

# XXXX 代表已知的数据
SELECT * FROM `year_score` where `year` = 2017 and id > XXXX ORDER BY id limit 20;

在没内鬼，来点干货！SQL优化和诊断一文中提到过，LIMIT会在满足条件下停止查询，因此该方案的扫描总量会急剧减少，效率提升Max！

方案和MySQL相同，此时我们就可以随用所欲的使用 FROM-TO Api，而且不用考虑最大限制的问题。

MongoDB

方案基本类似，基本代码如下：

相关性能测试：

如果非要深度随机跳页

如果你没有杠过产品经理，又该怎么办呢，没关系，还有一丝丝的机会。

在 SQL优化一文中还提到过MySQL深度分页的处理技巧，代码如下：

# 反例（耗时129.570s）
select * from task_result LIMIT 20000000, 10;
# 正例（耗时5.114s）
SELECT a.* FROM task_result a, (select id from task_result LIMIT 20000000, 10) b where a.id = b.id;
# 说明
# task_result表为生产环境的一个表，总数据量为3400万，id为主键，偏移量达到2000万

该方案的核心逻辑即基于聚簇索引，在不通过回表的情况下，快速拿到指定偏移量数据的主键ID，然后利用聚簇索引进行回表查询，此时总量仅为10条，效率很高。

因此我们在处理MySQL，ES，MongoDB时，也可以采用一样的办法：

限制获取的字段，只通过筛选条件，深度分页获取主键ID
通过主键ID定向查询需要的数据

瑕疵：当偏移量非常大时，耗时较长，如文中的 5s

推荐教程：《MySQL教程》

文章来源：https://juejin.im/post/5f0de4d06fb9a07e8a19a641

以上是如何兼容 MySQL + ES + MongoDB 实现上亿数据的深度分页？的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文转载于：juejin。如有侵权，请联系admin@php.cn删除

PHP类型提示如何起作用，包括标量类型，返回类型，联合类型和无效类型？Apr 17, 2025 am 12:25 AM

PHP类型提示提升代码质量和可读性。1)标量类型提示：自PHP7.0起，允许在函数参数中指定基本数据类型，如int、float等。2)返回类型提示：确保函数返回值类型的一致性。3)联合类型提示：自PHP8.0起，允许在函数参数或返回值中指定多个类型。4)可空类型提示：允许包含null值，处理可能返回空值的函数。

PHP如何处理对象克隆（克隆关键字）和__clone魔法方法？Apr 17, 2025 am 12:24 AM

PHP中使用clone关键字创建对象副本，并通过\_\_clone魔法方法定制克隆行为。1.使用clone关键字进行浅拷贝，克隆对象的属性但不克隆对象属性内的对象。2.通过\_\_clone方法可以深拷贝嵌套对象，避免浅拷贝问题。3.注意避免克隆中的循环引用和性能问题，优化克隆操作以提高效率。

PHP与Python：用例和应用程序Apr 17, 2025 am 12:23 AM

PHP适用于Web开发和内容管理系统，Python适合数据科学、机器学习和自动化脚本。1.PHP在构建快速、可扩展的网站和应用程序方面表现出色，常用于WordPress等CMS。2.Python在数据科学和机器学习领域表现卓越，拥有丰富的库如NumPy和TensorFlow。

描述不同的HTTP缓存标头（例如，Cache-Control，ETAG，最后修饰）。Apr 17, 2025 am 12:22 AM

HTTP缓存头的关键玩家包括Cache-Control、ETag和Last-Modified。1.Cache-Control用于控制缓存策略，示例：Cache-Control:max-age=3600,public。2.ETag通过唯一标识符验证资源变化，示例：ETag:"686897696a7c876b7e"。3.Last-Modified指示资源最后修改时间，示例：Last-Modified:Wed,21Oct201507:28:00GMT。

说明PHP中的安全密码散列（例如，password_hash，password_verify）。为什么不使用MD5或SHA1？Apr 17, 2025 am 12:06 AM

在PHP中，应使用password_hash和password_verify函数实现安全的密码哈希处理，不应使用MD5或SHA1。1)password_hash生成包含盐值的哈希，增强安全性。2)password_verify验证密码，通过比较哈希值确保安全。3)MD5和SHA1易受攻击且缺乏盐值，不适合现代密码安全。

PHP：服务器端脚本语言的简介Apr 16, 2025 am 12:18 AM

PHP是一种服务器端脚本语言，用于动态网页开发和服务器端应用程序。1.PHP是一种解释型语言，无需编译，适合快速开发。2.PHP代码嵌入HTML中，易于网页开发。3.PHP处理服务器端逻辑，生成HTML输出，支持用户交互和数据处理。4.PHP可与数据库交互，处理表单提交，执行服务器端任务。

PHP和网络：探索其长期影响Apr 16, 2025 am 12:17 AM

PHP在过去几十年中塑造了网络，并将继续在Web开发中扮演重要角色。1)PHP起源于1994年，因其易用性和与MySQL的无缝集成成为开发者首选。2)其核心功能包括生成动态内容和与数据库的集成，使得网站能够实时更新和个性化展示。3)PHP的广泛应用和生态系统推动了其长期影响，但也面临版本更新和安全性挑战。4)近年来的性能改进，如PHP7的发布，使其能与现代语言竞争。5)未来，PHP需应对容器化、微服务等新挑战，但其灵活性和活跃社区使其具备适应能力。