在SQL的实际使用中,我们经常会遇到需要先对数据进行分组聚合,再基于聚合后的结果做进一步计算的需求,这类操作被称为分组结果的二次聚合。比如先统计每个门店每个月的营收,再计算每个门店的平均月营收,就需要先完成按门店和月份的分组聚合,再对聚合结果做二次处理。

什么是分组结果二次聚合
分组结果二次聚合指的是先通过GROUP BY对原始数据完成第一次分组和聚合计算,得到中间结果集后,再对这个中间结果集进行第二次聚合、筛选或者关联等操作。这种需求在数据统计、报表生成场景中非常常见,单纯使用一次GROUP BY无法满足需求,需要结合子查询或者CTE来实现。
利用嵌套子查询实现二次聚合
嵌套子查询是最常用的实现方式,核心思路是把第一次分组聚合的查询作为子查询,放在外层查询的FROM子句中,外层查询再对子查询的结果做二次处理。
基础语法结构
-- 外层查询对子查询的聚合结果做二次处理
SELECT 二次聚合字段, 二次聚合函数(聚合字段)
FROM (
-- 内层子查询完成第一次分组聚合
SELECT 分组字段1, 分组字段2, 第一次聚合函数(计算字段) AS 聚合字段
FROM 表名
WHERE 筛选条件
GROUP BY 分组字段1, 分组字段2
) AS 子查询别名
GROUP BY 二次聚合字段;
示例演示
假设我们有一张销售记录表sales,包含字段store_id(门店ID)、sale_month(销售月份)、sale_amount(销售金额),现在需要统计每个门店的平均月销售额。
首先需要先按门店和月份分组,计算每个门店每个月的销售总额,这是第一次聚合;然后再按门店分组,计算月销售额的平均值,这是第二次聚合。
SELECT
store_id,
AVG(month_sale) AS avg_month_sale
FROM (
-- 第一次聚合:计算每个门店每个月的销售总额
SELECT
store_id,
sale_month,
SUM(sale_amount) AS month_sale
FROM sales
GROUP BY store_id, sale_month
) AS month_sale_data
GROUP BY store_id;
利用CTE实现二次聚合
CTE即公用表表达式,也就是我们常说的WITH子句,它可以将第一次分组聚合的结果定义为一个临时结果集,后续查询可以直接引用这个临时结果集做二次聚合,逻辑上比嵌套子查询更清晰,尤其是多层嵌套的场景下可读性更好。
基础语法结构
-- 定义CTE,存储第一次分组聚合的结果
WITH 临时结果集名称 AS (
SELECT 分组字段1, 分组字段2, 第一次聚合函数(计算字段) AS 聚合字段
FROM 表名
WHERE 筛选条件
GROUP BY 分组字段1, 分组字段2
)
-- 外层查询对CTE的结果做二次聚合
SELECT 二次聚合字段, 二次聚合函数(聚合字段)
FROM 临时结果集名称
GROUP BY 二次聚合字段;
示例演示
同样使用上面的销售表sales,实现统计每个门店平均月销售额的需求,用CTE的写法如下:
-- 定义CTE存储每个门店每个月的销售总额
WITH month_sale_data AS (
SELECT
store_id,
sale_month,
SUM(sale_amount) AS month_sale
FROM sales
GROUP BY store_id, sale_month
)
-- 二次聚合:计算每个门店的平均月销售额
SELECT
store_id,
AVG(month_sale) AS avg_month_sale
FROM month_sale_data
GROUP BY store_id;
两种方式的对比与选择
嵌套子查询和CTE都能实现分组结果的二次聚合,两者的核心逻辑一致,只是写法不同,适用场景也有区别:
- 嵌套子查询兼容性更好,几乎所有SQL数据库都支持,适合简单的二次聚合场景,或者需要兼容老旧数据库的场景。
- CTE的可读性更强,尤其是当需要多次引用第一次聚合的结果,或者存在多层嵌套的时候,CTE可以让查询逻辑更清晰,适合复杂查询场景,主流数据库如MySQL8.0+、PostgreSQL、SQL Server等都支持。
注意事项
在使用这两种方式实现二次聚合的时候,需要注意以下几点:
- 子查询或者CTE必须定义别名,否则外层查询无法引用其结果。
- 第一次聚合的
GROUP BY字段要和后续二次聚合的字段对应,避免结果不符合预期。 - 如果原始数据量较大,建议先对第一次聚合的结果做必要的筛选,减少中间结果集的大小,提升查询性能。
总结来说,SQL对分组结果做二次聚合的核心是先拿到第一次分组的中间结果,再基于中间结果做进一步计算,嵌套子查询和CTE只是承载中间结果的两种方式,开发者可以根据实际场景选择合适的方法。