在处理百万级数据的REST API请求时,分页是必不可少的环节,不合理的分页实现会导致数据库查询压力剧增,接口响应时间拉长。传统的分页方式在偏移量较大时性能会呈指数级下降,因此需要选择更适合大数量场景的分页方案。

常见分页方式及问题
偏移量分页(Offset Pagination)
偏移量分页是最常用的分页方式,通过limit和offset参数控制查询结果,实现逻辑简单,但是在百万级数据场景下存在明显缺陷。数据库执行查询时需要跳过offset指定的记录数,当offset值很大时,数据库需要扫描大量无用数据,查询效率极低。
以下是偏移量分页的典型SQL示例:
-- 查询第1001到1010条数据,offset为1000 SELECT id, name, create_time FROM user_table ORDER BY id ASC LIMIT 10 OFFSET 1000;
游标分页(Cursor Pagination)
游标分页也称为基于键集的分页,通过上一页最后一条数据的唯一标识字段作为查询条件,避免大量数据扫描。这种方式不需要跳过记录,查询效率稳定,适合百万级甚至更高级别的数据分页,但是不支持随机跳页,只能顺序翻页。
对应的SQL示例如下:
-- 假设上一页最后一条数据的id是1000,查询下一页数据 SELECT id, name, create_time FROM user_table WHERE id > 1000 ORDER BY id ASC LIMIT 10;
高效分页实现方案
数据库层面优化
首先要保证分页查询使用的排序字段和过滤字段有合适的索引,比如游标分页使用的id字段如果是主键,本身就带有聚簇索引,查询效率会非常高。如果是非主键字段作为游标,需要为该字段建立普通索引,避免全表扫描。
同时要尽量避免在分页查询中使用SELECT *,只查询需要的字段,减少数据传输和内存占用。
REST API接口设计
基于游标分页的REST API接口可以设计如下,请求参数包含cursor(上一页最后一条数据的游标值)和limit(每页数据量),响应中返回当前页数据和下一页的游标。
以下是接口响应的JSON结构示例:
{
"data": [
{"id": 1001, "name": "用户1", "create_time": "2024-01-01 10:00:00"},
{"id": 1002, "name": "用户2", "create_time": "2024-01-01 10:01:00"}
],
"next_cursor": "1002",
"has_more": true
}
后端实现示例(Java + Spring Boot)
以下是基于游标分页的Controller层实现代码:
import org.springframework.web.bind.annotation.GetMapping;
import org.springframework.web.bind.annotation.RequestParam;
import org.springframework.web.bind.annotation.RestController;
import java.util.List;
@RestController
public class UserController {
private final UserService userService;
public UserController(UserService userService) {
this.userService = userService;
}
@GetMapping("/api/users")
public UserPageResponse getUsers(
@RequestParam(required = false) Long cursor,
@RequestParam(defaultValue = "10") Integer limit) {
// 调用服务层查询数据
List<User> userList = userService.queryUsersByCursor(cursor, limit);
// 构造响应结果
UserPageResponse response = new UserPageResponse();
response.setData(userList);
// 如果查询结果等于limit,说明还有下一页
if (userList.size() == limit) {
response.setNext_cursor(userList.get(userList.size() - 1).getId().toString());
response.setHas_more(true);
} else {
response.setHas_more(false);
}
return response;
}
}
对应的服务层查询逻辑:
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.jdbc.core.BeanPropertyRowMapper;
import org.springframework.jdbc.core.JdbcTemplate;
import org.springframework.stereotype.Service;
import java.util.ArrayList;
import java.util.List;
@Service
public class UserService {
@Autowired
private JdbcTemplate jdbcTemplate;
public List<User> queryUsersByCursor(Long cursor, Integer limit) {
List<Object> params = new ArrayList<>();
String sql = "SELECT id, name, create_time FROM user_table ";
if (cursor != null) {
sql += "WHERE id > ? ";
params.add(cursor);
}
sql += "ORDER BY id ASC LIMIT ?";
params.add(limit);
return jdbcTemplate.query(sql, params.toArray(), new BeanPropertyRowMapper<>(User.class));
}
}
方案对比
两种方式的核心差异如下:
| 分页方式 | 适合数据量级 | 是否支持随机跳页 | 查询性能 | 实现复杂度 |
|---|---|---|---|---|
| 偏移量分页 | 万级以内 | 支持 | 偏移量越大性能越差 | 低 |
| 游标分页 | 百万级及以上 | 不支持 | 性能稳定,不受数据量影响 | 中等 |
注意事项
- 游标字段必须是唯一且有序的,通常选择主键或者带唯一索引的时间戳字段
- 如果业务需要支持随机跳页,可以结合偏移量分页和缓存,缓存前N页的游标值,减少深分页查询
- 每页的
limit值需要设置上限,避免单次请求返回过多数据导致内存溢出 - 高并发场景下,可以给分页查询接口添加缓存,缓存热门页的数据,降低数据库压力