mysql分表后,数据被分散存储到多个物理表中,原有的单表分页逻辑无法直接适用,需要结合分表规则和查询需求重新设计分页方案,避免出现数据遗漏或排序错误的问题。

分表后分页的核心难点
单表分页时,我们可以直接使用limit offset, pageSize的语法,依赖mysql自身的全局排序和偏移量计算返回正确结果。但分表后存在两个核心问题:
- 每个分表只存储部分数据,单独在每个分表执行分页后合并,无法保证全局排序的正确性,尤其是跨分表的排序场景下结果会错乱。
- 如果分页依赖的排序字段不是分表键,需要跨所有分表查询数据后再做全局排序和分页,否则会出现数据遗漏。
常见分表分页实现方案
方案一:基于全局排序键的分页
如果查询的排序字段是全局唯一的递增字段(比如自增主键id、创建时间create_time),可以采用先查每个分表的对应页数据,合并后做全局排序再截取目标页的方式。
假设我们按用户id取模分了4张用户表:user_0、user_1、user_2、user_3,现在要按用户注册时间倒序分页查询,每页10条,查询第3页(偏移量20,每页10条)。
实现步骤如下:
- 先在每个分表查询按注册时间倒序的前30条数据(offset+pageSize=20+10=30),因为最终要的是第3页,每个分表最多贡献10条,但提前多查一些可以避免部分分表数据不足导致最终结果不够。
- 将所有分表返回的数据合并,按注册时间倒序排序。
- 从合并后的结果中取偏移量20开始的10条数据,就是第3页的结果。
对应的代码示例如下:
<?php
// 分表规则:用户id取模4
$tableCount = 4;
$page = 3;
$pageSize = 10;
$offset = ($page - 1) * $pageSize;
// 每个分表需要查询的数量,这里取offset+pageSize,避免数据不足
$perTableLimit = $offset + $pageSize;
$allData = [];
// 遍历所有分表查询数据
for ($i = 0; $i < $tableCount; $i++) {
$tableName = "user_" . $i;
// 查询当前分表按注册时间倒序的前perTableLimit条数据
$sql = "SELECT id, username, register_time FROM {$tableName} ORDER BY register_time DESC LIMIT {$perTableLimit}";
// 执行sql获取数据,这里假设getData是封装的查询方法
$tableData = getData($sql);
if (!empty($tableData)) {
$allData = array_merge($allData, $tableData);
}
}
// 按注册时间倒序全局排序
usort($allData, function($a, $b) {
return strtotime($b['register_time']) - strtotime($a['register_time']);
});
// 截取目标页数据
$pageData = array_slice($allData, $offset, $pageSize);
// 输出结果
print_r($pageData);
?>
方案二:使用分表中间件辅助分页
如果业务分表数量多、查询场景复杂,手动实现跨分表分页逻辑成本较高,可以使用成熟的分表中间件(比如ShardingSphere-JDBC)来自动处理分页逻辑。
这类中间件会拦截用户的sql请求,自动解析分表规则,将分页查询路由到对应的分表,合并各个分表的结果后做全局排序和分页,再返回给应用层,开发者不需要手动写跨表合并的逻辑。
以ShardingSphere-JDBC为例,配置分表规则后,直接使用单表的分页语法即可:
-- 即使数据分在多个表,直接写单表的分页sql,中间件会自动处理 SELECT id, username, register_time FROM user ORDER BY register_time DESC LIMIT 20, 10;
分表分页的注意事项
- 如果排序字段没有索引,跨分表查询时每个分表的全量排序成本会很高,建议给排序字段加上索引,减少查询耗时。
- 深度分页场景下(比如查询第1000页),每个分表需要查询的数量会非常大,性能会明显下降,建议采用基于游标的分页方式,比如用上一页最后一条数据的排序字段值作为查询条件,代替offset。
- 如果分表后还有按非分表键的查询需求,建议提前做好冗余索引或者异构数据同步,避免全分表扫描。
分表分页的核心是保证全局排序的正确性,选择方案时要结合业务的查询场景、分表数量、性能要求综合考虑,简单的分表场景可以手动实现合并逻辑,复杂的场景优先使用成熟的中间件降低开发成本。