在SQL数据处理过程中,分组内的累计百分比计算是高频需求,比如统计每个部门内员工薪资的累计占比、每个品类下商品销量的累计分布等,使用SUM OVER窗口函数可以高效实现这类计算。

核心实现逻辑
计算分组内累计百分比的核心思路分为三步:首先按分组维度计算每个分组的总数值,然后按排序规则计算分组内的累计数值,最后用累计数值除以分组总数值得到百分比。SUM OVER窗口函数可以同时支持分组和排序的累计计算,不需要额外的子查询嵌套。
基础语法说明
SUM OVER的语法结构如下:
-- 累计求和语法
SUM(计算字段) OVER (
PARTITION BY 分组字段
ORDER BY 排序字段
ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW
) AS 累计值
其中PARTITION BY用来指定分组的维度,ORDER BY用来指定分组内数据的排序规则,ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW表示计算从分组第一行到当前行的累计值,这个范围是默认配置,也可以省略不写。
完整实现案例
假设我们有一张员工薪资表employee_salary,表结构如下:
| 字段名 | 类型 | 说明 |
|---|---|---|
| dept | varchar | 部门名称 |
| emp_name | varchar | 员工姓名 |
| salary | int | 员工薪资 |
需求是计算每个部门内,按薪资从低到高排序的累计薪资占比,完整SQL如下:
-- 计算每个部门内薪资的累计百分比
SELECT
dept,
emp_name,
salary,
-- 计算分组内总薪资
SUM(salary) OVER (PARTITION BY dept) AS dept_total_salary,
-- 计算分组内累计薪资
SUM(salary) OVER (
PARTITION BY dept
ORDER BY salary
) AS dept_cum_salary,
-- 计算累计百分比,保留两位小数
ROUND(
SUM(salary) OVER (PARTITION BY dept ORDER BY salary) * 1.0 /
SUM(salary) OVER (PARTITION BY dept),
2
) AS cum_percent
FROM employee_salary
ORDER BY dept, salary;
执行上述SQL后,会得到每个部门内员工的薪资、部门总薪资、累计薪资以及对应的累计百分比,结果符合分组内按薪资排序的累计分布逻辑。
注意事项
- 计算百分比时,需要给分子乘以1.0避免整数除法导致结果取整,比如上述案例中如果不乘1.0,两个整数相除只会得到0或者1,无法得到准确的百分比小数。
- 如果分组内存在相同排序值的记录,默认累计会包含相同值的所有记录,如果需要按行逐个累计,可以在
ORDER BY后增加唯一字段比如员工ID,避免排序值重复。 - 不同数据库对窗口函数的支持略有差异,上述语法在MySQL8.0+、PostgreSQL、SQL Server、Oracle等主流数据库中都适用,低版本数据库可能需要用子查询替代实现。
常见误区
很多开发者会尝试先分组计算总数值,再关联原表做累计计算,这种方式需要多次扫描表,性能远低于直接使用SUM OVER窗口函数。窗口函数只需要一次表扫描就可以同时完成分组、累计、总数值计算,是更优的实现方案。
累计百分比的计算结果如果需要展示为百分比格式,可以在应用层拼接百分号,或者在SQL中使用字符串拼接函数处理,比如MySQL中可以用CONCAT(cum_percent * 100, '%')得到百分比字符串。