在SQL数据处理的实际需求里,经常需要按照某个或多个字段进行分组,然后在每个分组中按照特定规则排序,最终取出每组的第一条记录,比如统计每个用户最新的订单、每个部门薪资最高的员工等场景都会用到这个需求。

方法一:使用窗口函数ROW_NUMBER
窗口函数是目前最通用的分组取首条数据的方案,主流的关系型数据库如SQL Server、Oracle、PostgreSQL、MySQL 8.0及以上版本都支持该语法。核心逻辑是先对每个分组内的数据排序,再给每行数据编号,最后筛选编号为1的记录。
-- 示例表结构:user_order表,存储用户订单信息
-- 字段:order_id 订单ID, user_id 用户ID, order_time 下单时间, amount 订单金额
-- 需求:获取每个用户最新的一笔订单
SELECT
order_id,
user_id,
order_time,
amount
FROM (
SELECT
order_id,
user_id,
order_time,
amount,
-- 按用户分组,组内按下单时间降序排序,给每行编号
ROW_NUMBER() OVER (PARTITION BY user_id ORDER BY order_time DESC) AS rn
FROM user_order
) t
WHERE rn = 1;
这种方法的优势是逻辑清晰,排序规则可以灵活调整,支持多字段排序,比如先按订单金额降序,金额相同再按下单时间降序,只需要修改ORDER BY后面的字段即可。
方法二:子查询配合聚合函数
如果使用的数据库版本不支持窗口函数,比如MySQL 5.7及以下版本,可以采用子查询先获取每个分组的最大排序值,再关联原表获取完整记录。
-- 同样以user_order表为例,获取每个用户最新订单
SELECT
o.order_id,
o.user_id,
o.order_time,
o.amount
FROM user_order o
INNER JOIN (
-- 先获取每个用户的最晚下单时间
SELECT
user_id,
MAX(order_time) AS latest_time
FROM user_order
GROUP BY user_id
) t ON o.user_id = t.user_id AND o.order_time = t.latest_time;
这种方法需要注意一个问题:如果同一个用户在同一时间有多个订单,那么会返回多条该用户的记录,而不是严格的一条。如果需要去重,可以再配合其他唯一字段比如订单ID进行二次筛选。
方法三:自连接实现分组取首条
自连接的方式也可以实现分组取数,原理是让原表和自身连接,连接条件为分组字段相同,排序字段左表大于右表,最后筛选右表为空的记录,即左表是该分组中排序最大的记录。
-- 获取每个用户最新订单,使用自连接实现
SELECT
o1.order_id,
o1.user_id,
o1.order_time,
o1.amount
FROM user_order o1
LEFT JOIN user_order o2
ON o1.user_id = o2.user_id
AND o1.order_time < o2.order_time
WHERE o2.user_id IS NULL;
这种方式的性能在大数据量场景下可能不如前两种方案,因为会产生较多的连接计算,适合数据量较小的场景使用。
不同方案对比
| 实现方案 | 适用数据库版本 | 优点 | 缺点 |
|---|---|---|---|
| 窗口函数ROW_NUMBER | MySQL 8.0+、SQL Server、Oracle、PostgreSQL等 | 逻辑清晰,支持灵活排序,性能较好 | 低版本数据库不支持 |
| 子查询+聚合函数 | 所有支持GROUP BY的SQL数据库 | 兼容性好,所有版本都支持 | 存在同排序值重复返回的问题 |
| 自连接 | 所有支持表连接的SQL数据库 | 无需窗口函数和复杂聚合 | 大数据量下性能较差 |
注意事项
- 分组字段如果有NULL值,需要注意数据库对NULL值的分组规则,大部分数据库会把所有NULL值归为同一组。
- 排序字段如果存在重复值,需要根据业务需求决定是否需要补充其他排序字段,保证排序的唯一性,避免出现取数不符合预期的情况。
- 如果数据量较大,建议在分组字段和排序字段上建立合适的索引,提升查询性能。
实际开发中优先选择窗口函数方案,兼容性允许的情况下该方案的稳定性和可维护性最好,遇到低版本数据库再考虑其他替代方案。
SQL分组查询ROW_NUMBER聚合函数窗口函数修改时间:2026-07-01 20:42:33