在业务数据处理场景中,按指定字段分组后获取每组最新的一条记录是非常常见的需求,比如电商系统中按用户ID分组获取每个用户的最新一笔订单,内容平台中按文章分类分组获取每个分类的最新发布文章。这类需求的核心是先完成分组,再在每组中筛选出时间最新的记录,而SQL的关联子查询正好可以完美适配这个逻辑。

需求场景说明
假设我们有一张订单表order_info,表结构如下:
| 字段名 | 类型 | 说明 |
|---|---|---|
| id | int | 订单主键 |
| user_id | int | 用户ID |
| order_amount | decimal | 订单金额 |
| create_time | datetime | 订单创建时间 |
现在需要查询每个用户的最新一笔订单信息,也就是按user_id分组,每组取create_time最大的那条记录。
关联子查询实现思路
关联子查询是指子查询中引用了外层查询的字段,子查询的执行依赖外层查询的结果。实现分组取最新记录的思路是:外层查询遍历order_info表的每一条记录,子查询针对当前外层记录的user_id,查询该用户所有订单中的最大create_time,然后判断外层记录的create_time是否等于这个最大值,如果相等就说明是当前用户的最新订单。
基础实现示例
以下是使用关联子查询实现该需求的SQL代码:
-- 查询每个用户的最新订单 SELECT o1.id, o1.user_id, o1.order_amount, o1.create_time FROM order_info o1 WHERE o1.create_time = ( -- 关联子查询,查询当前用户的最大创建时间 SELECT MAX(o2.create_time) FROM order_info o2 WHERE o2.user_id = o1.user_id );
上述代码中,外层查询给order_info表取了别名o1,子查询中给表取了别名o2,子查询的WHERE o2.user_id = o1.user_id就是关联条件,确保子查询只查询和外层记录同一个用户的所有订单,然后取这些订单的最大create_time,外层查询通过o1.create_time = 子查询结果筛选出每个用户的最新订单。
存在重复时间的处理
如果同一个用户存在多条create_time完全相同的订单,上述查询会返回所有这些重复记录。如果需要只取其中一条,可以结合主键排序,比如取ID最大的那条:
-- 处理同用户同时间多条订单,取ID最大的一条
SELECT
o1.id,
o1.user_id,
o1.order_amount,
o1.create_time
FROM order_info o1
WHERE o1.id = (
-- 先查同用户同最大时间的订单中ID最大的
SELECT MAX(o2.id)
FROM order_info o2
WHERE o2.user_id = o1.user_id
AND o2.create_time = (
-- 先查当前用户的最大创建时间
SELECT MAX(o3.create_time)
FROM order_info o3
WHERE o3.user_id = o1.user_id
)
);
不同数据库的适配说明
上述关联子查询的写法属于标准SQL,在MySQL、PostgreSQL、SQL Server等主流数据库中都可以正常运行。如果是Oracle数据库,需要注意日期时间的处理方式,同时如果表数据量较大,关联子查询可能会有性能问题,可以结合索引优化,比如在user_id和create_time字段上建立联合索引:
-- 创建联合索引提升查询性能 CREATE INDEX idx_user_create ON order_info(user_id, create_time);
其他实现方式对比
除了关联子查询,还可以使用窗口函数实现同样的需求,比如MySQL 8.0及以上版本支持ROW_NUMBER()窗口函数:
-- 窗口函数实现分组取最新记录
SELECT
id,
user_id,
order_amount,
create_time
FROM (
SELECT
*,
ROW_NUMBER() OVER(PARTITION BY user_id ORDER BY create_time DESC) AS rn
FROM order_info
) t
WHERE t.rn = 1;
相比窗口函数,关联子查询的兼容性更好,在低版本不支持窗口函数的数据库中也能使用,开发者可以根据实际使用的数据库版本选择合适的实现方式。