在业务数据分析中,按时间维度分组统计后计算同比数据是常见需求,比如统计2024年各月份不同品类的销售额,同时对比2023年同月份的销售额计算同比增幅。实现这个需求主要有自关联和窗口函数两种主流方案,下面结合实际案例对比两种方式的实现逻辑和特点。

测试数据准备
首先创建销售数据表并插入测试数据,表结构包含统计年月、产品品类、销售额三个字段,后续所有示例都基于这张表实现。
-- 创建销售表
CREATE TABLE sales (
stat_month DATE,
product_category VARCHAR(50),
sales_amount DECIMAL(10,2)
);
-- 插入测试数据
INSERT INTO sales (stat_month, product_category, sales_amount) VALUES
('2023-01-01', '手机', 12000.00),
('2023-01-01', '电脑', 20000.00),
('2023-02-01', '手机', 15000.00),
('2023-02-01', '电脑', 22000.00),
('2024-01-01', '手机', 18000.00),
('2024-01-01', '电脑', 25000.00),
('2024-02-01', '手机', 16000.00),
('2024-02-01', '电脑', 24000.00);
方案一:自关联实现同比计算
自关联的核心思路是将同一张销售表通过时间偏移进行连接,当前年份的数据作为主表,上一年同月份的数据作为关联表,通过分组统计后匹配对应数据计算同比。
实现步骤
- 先按年份和月份分别统计各品类的销售额,得到当前年和上一年的分组统计结果
- 通过产品品类和月份字段将两个统计结果关联,匹配同月份的同比数据
- 计算同比增幅:(当前年销售额 - 上年销售额) / 上年销售额 * 100%
完整SQL示例
-- 自关联计算同比
WITH current_year_sales AS (
-- 统计当前年(2024)各月份各品类销售额
SELECT
DATE_FORMAT(stat_month, '%m') AS stat_month_num,
product_category,
SUM(sales_amount) AS current_sales
FROM sales
WHERE YEAR(stat_month) = 2024
GROUP BY DATE_FORMAT(stat_month, '%m'), product_category
),
last_year_sales AS (
-- 统计上年(2023)各月份各品类销售额
SELECT
DATE_FORMAT(stat_month, '%m') AS stat_month_num,
product_category,
SUM(sales_amount) AS last_sales
FROM sales
WHERE YEAR(stat_month) = 2023
GROUP BY DATE_FORMAT(stat_month, '%m'), product_category
)
SELECT
c.stat_month_num AS 统计月份,
c.product_category AS 产品品类,
c.current_sales AS 当年销售额,
l.last_sales AS 上年同月销售额,
ROUND(
(c.current_sales - l.last_sales) / l.last_sales * 100,
2
) AS 同比增幅百分比
FROM current_year_sales c
LEFT JOIN last_year_sales l
ON c.stat_month_num = l.stat_month_num
AND c.product_category = l.product_category
ORDER BY c.stat_month_num, c.product_category;
方案二:窗口函数实现同比计算
窗口函数可以通过LAG函数基于排序规则获取相邻行(即上一年同月份)的数据,不需要做表连接,逻辑更简洁。核心是通过时间排序,让同一品类下上一年同月份的数据排在相邻位置,直接提取计算。
实现步骤
- 先按年份和月份统计各品类的销售额,得到所有年份的分组统计结果
- 使用
LAG窗口函数,按产品品类分区,按年月排序,取前12行(即上一年同月份)的销售额数据 - 直接计算同比增幅,过滤出当前年份的数据即可
完整SQL示例
-- 窗口函数计算同比
WITH monthly_sales AS (
-- 统计所有年份各月份各品类销售额
SELECT
YEAR(stat_month) AS stat_year,
DATE_FORMAT(stat_month, '%m') AS stat_month_num,
product_category,
SUM(sales_amount) AS total_sales
FROM sales
GROUP BY YEAR(stat_month), DATE_FORMAT(stat_month, '%m'), product_category
)
SELECT
stat_month_num AS 统计月份,
product_category AS 产品品类,
total_sales AS 当年销售额,
last_year_sales AS 上年同月销售额,
ROUND(
(total_sales - last_year_sales) / last_year_sales * 100,
2
) AS 同比增幅百分比
FROM (
SELECT
stat_year,
stat_month_num,
product_category,
total_sales,
-- 取同一品类下前12行的销售额,即上一年同月份数据
LAG(total_sales, 12) OVER (
PARTITION BY product_category
ORDER BY stat_year, stat_month_num
) AS last_year_sales
FROM monthly_sales
) t
WHERE stat_year = 2024
ORDER BY stat_month_num, product_category;
两种方案对比
从多个维度对比两种实现方式的差异,开发者可以根据实际场景选择:
| 对比维度 | 自关联方案 | 窗口函数方案 |
|---|---|---|
| 代码复杂度 | 需要写多个CTE和关联逻辑,代码较长 | 只需要一个窗口函数调用,代码简洁 |
| 性能表现 | 多表关联开销较大,数据量大时性能较差 | 单表扫描加窗口计算,性能更优 |
| 适用场景 | 数据库不支持窗口函数(如低版本MySQL)时使用 | 支持窗口函数的数据库(MySQL8+、PostgreSQL、Oracle等)优先使用 |
| 扩展性 | 计算多个时间偏移(如同比、环比同时算)需要多次关联 | 只需要增加对应的窗口函数即可,扩展方便 |
总结
如果使用的数据库支持窗口函数,优先选择窗口函数方案实现分组统计的同比计算,代码更简洁,性能也更好。如果是低版本数据库不支持窗口函数,再选择自关联方案实现。两种方案的核心逻辑都是匹配同一分组下不同时间周期的统计数据,理解这个逻辑后可以灵活适配不同的时间维度和统计需求。