在SQL的实际使用场景中,按指定字段分组后获取每组内排名前N条记录的需求非常常见,比如按班级查询每个班级成绩前3名的学生,按商品类别查询每个类别销量前5的商品等。这类需求的核心是先完成分组,再在组内做排序和数量限制,下面介绍几种主流的实现方式。

使用窗口函数实现分组TOP N
窗口函数是处理分组排名需求最简洁高效的方式,主流的关系型数据库如MySQL 8.0+、PostgreSQL、SQL Server、Oracle等都支持该函数。常用的排名窗口函数有ROW_NUMBER()、RANK()、DENSE_RANK(),三者的区别是处理并列排名时的逻辑不同:
ROW_NUMBER():组内排名连续不重复,即使值相同也会分配不同的序号RANK():并列排名会占用后续序号,比如两个第1名,下一个就是第3名DENSE_RANK():并列排名不占用后续序号,比如两个第1名,下一个就是第2名
以查询每个班级成绩前3名的学生为例,表结构为student,包含id、class_id、student_name、score字段,使用ROW_NUMBER()实现的代码如下:
-- 查询每个班级成绩前3的学生,按成绩降序排名
SELECT
class_id,
student_name,
score
FROM (
SELECT
class_id,
student_name,
score,
-- 按班级分组,组内按成绩降序排名
ROW_NUMBER() OVER (PARTITION BY class_id ORDER BY score DESC) AS rn
FROM student
) t
WHERE rn <= 3;
如果需要保留并列排名的情况,比如成绩相同的学生都算前3,可以替换为DENSE_RANK()函数,此时WHERE条件可以调整为rn <= 3,就能把排名前3的所有学生都查询出来。
使用子查询结合COUNT实现分组TOP N
如果使用的数据库版本不支持窗口函数,比如MySQL 5.7及以下版本,可以使用子查询结合COUNT函数的方式实现。核心逻辑是对于每一行记录,统计同组内比当前记录排序字段值更大(或更小,根据排序方向)的记录数量,数量小于N的就是TOP N范围内的记录。
同样以查询每个班级成绩前3的学生为例,实现代码如下:
-- 子查询统计同班级中成绩更高的记录数,数量小于3的就是前3名
SELECT
s1.class_id,
s1.student_name,
s1.score
FROM student s1
WHERE (
-- 统计同班级中成绩比当前记录高的数量
SELECT COUNT(*)
FROM student s2
WHERE s2.class_id = s1.class_id
AND s2.score > s1.score
) < 3
ORDER BY s1.class_id, s1.score DESC;
这种方式的缺点是当数据量较大时,子查询会多次扫描表,性能比窗口函数的方式差,适合数据量较小的场景使用。
不同场景的实现选择
可以根据实际使用的数据库版本和数据量选择合适的实现方式:
| 实现方式 | 适用场景 | 优缺点 |
|---|---|---|
| 窗口函数 | 支持窗口函数的数据库,中大数据量 | 语法简洁,性能较好,支持多种排名逻辑 |
| 子查询+COUNT | 不支持窗口函数的低版本数据库,小数据量 | 兼容性好,但性能较差,逻辑相对复杂 |
注意事项
在实现分组TOP N查询时,需要注意几个问题:
- 排序方向要和TOP N的逻辑匹配,比如查询最大值前N用降序,查询最小值前N用升序
- 如果排序字段存在NULL值,需要根据业务逻辑处理NULL的排序位置,比如有的数据库NULL会排在最前,有的排在最后
- 当组内记录数不足N时,会返回组内所有记录,符合大部分业务的实际需求
如果业务中需要固定返回N条记录,即使组内不足N条也要补空值,可以在外层再套一层固定的序号生成逻辑,结合左连接实现。
掌握分组TOP N的查询方法后,可以快速应对大部分分组排名类的SQL查询需求,提升数据查询和处理的效率。