SQL中的GROUP BY CUBE是多维分析场景下的核心语法,它可以自动生成指定维度所有组合的统计结果,不需要手动编写多个分组查询再合并结果,大幅提升多维统计的开发效率。它的核心特点是会穷举所有参与分组的维度字段的所有可能组合,包括空组合也就是全表汇总的结果。

GROUP BY CUBE 语法与全维度汇总逻辑
GROUP BY CUBE的基本语法格式为在GROUP BY子句后添加CUBE关键字,括号内填入需要参与多维汇总的维度字段,多个字段用逗号分隔。数据库执行该语句时,会生成所有维度字段的幂集对应的分组结果,也就是每个维度字段都可以选择参与分组或者不参与分组,所有组合都会被统计。
假设我们有一张销售记录表sales,包含字段region(地区)、product(产品)、sales_amount(销售金额),现在需要统计不同地区、不同产品的销售汇总,同时还需要地区汇总、产品汇总、全表总汇总的结果,使用GROUP BY CUBE可以快速实现。
-- 全维度汇总查询示例
SELECT
region,
product,
SUM(sales_amount) AS total_sales
FROM sales
GROUP BY CUBE(region, product)
ORDER BY region, product;
上述语句会生成以下4种维度组合的统计结果:
- region和product都参与分组:统计每个地区每个产品的销售总额
- 仅region参与分组:统计每个地区的销售总额,此时product字段值为NULL
- 仅product参与分组:统计每个产品的销售总额,此时region字段值为NULL
- 两个字段都不参与分组:统计全表的总销售金额,此时region和product字段值都为NULL
如果CUBE中包含n个维度字段,那么最终会生成2的n次方个分组组合的结果,这是全维度汇总的核心特征。
不同分组方式的存储开销对比
存储开销主要体现在查询结果集的行数上,行数越多意味着需要更多的内存存储临时结果,如果是将结果写入物理表,也会占用更多的磁盘空间。我们同样以2个维度字段的sales表为例,假设原表有1000条销售记录,region有3个不同值,product有4个不同值,来对比不同分组方式的存储开销。
1. 普通GROUP BY分组
普通GROUP BY如果只按region和product分组,结果行数为两个字段不同组合的数量,最多为3*4=12行,加上排序等操作的开销,整体存储占用极低。
-- 普通分组仅统计地区+产品组合
SELECT
region,
product,
SUM(sales_amount) AS total_sales
FROM sales
GROUP BY region, product;
2. GROUP BY ROLLUP分组
ROLLUP生成的是层级化的汇总结果,对于CUBE(region, product)对应的ROLLUP,会生成(region, product)、(region)、()这3种组合,结果行数最多为3*4 + 3 + 1 = 16行,存储开销比普通GROUP BY高,但远低于CUBE。
-- ROLLUP层级汇总查询
SELECT
region,
product,
SUM(sales_amount) AS total_sales
FROM sales
GROUP BY ROLLUP(region, product)
ORDER BY region, product;
3. GROUP BY CUBE分组
CUBE会生成所有4种组合,结果行数最多为3*4 + 3 + 4 + 1 = 20行,是三种方式中结果行数最多的,存储开销也最高。如果维度数量增加到3个,CUBE的结果行数会达到2的3次方=8种组合,维度越多,CUBE的结果行数增长速度远快于普通分组和ROLLUP。
我们可以通过表格直观对比三种方式的开销差异:
| 分组方式 | 2个维度的最大结果行数 | 3个维度的最大结果行数 | 存储开销等级 |
|---|---|---|---|
| 普通GROUP BY | 12 | 60(假设3个维度分别有3、4、5个不同值) | 低 |
| GROUP BY ROLLUP | 16 | 60+3+1=64 | 中 |
| GROUP BY CUBE | 20 | 60+12+20+15+3+4+5+1=120 | 高 |
使用建议
如果业务确实需要所有维度组合的汇总数据,比如需要同时支持按地区、按产品、按地区+产品、全量汇总的多维度报表查询,那么GROUP BY CUBE是最优的开发选择,虽然存储开销高,但减少了多次查询的代码量,也避免了多次扫描原表的开销。
如果只需要层级化的汇总结果,比如先按大区汇总,再按大区下的城市汇总,那么优先选择ROLLUP,能够在满足需求的前提下降低存储开销。
如果只需要固定的几个维度组合的统计结果,不需要全维度汇总,那么使用普通GROUP BY或者多个普通GROUP BY查询合并结果的方式,存储开销最低,性能也更好。
在实际使用中,如果CUBE的维度较多,结果集过大,可以考虑对结果进行过滤,比如只保留需要的维度组合,或者在业务低峰期执行该查询,避免对线上数据库造成过大压力。
SQLGROUP_BY_CUBE全维度汇总存储开销分组统计修改时间:2026-07-03 08:18:12