SQL数据分桶统计是处理连续数值数据的常用操作,核心是将数值按照预设的区间范围划分,再统计每个区间内的数据数量,广泛应用于用户消费分层、成绩分段、年龄分布等分析场景。

通用方案:CASE WHEN 条件判断
所有支持SQL的数据库都可以使用CASE WHEN语句实现分桶,这种方式灵活性最高,可以自定义任意不连续的区间规则。
假设我们有一张用户消费记录表user_consume,结构如下:
| 字段名 | 类型 | 说明 |
|---|---|---|
| user_id | INT | 用户ID |
| amount | DECIMAL(10,2) | 消费金额 |
现在需要统计消费金额在[0,100)、[100,500)、[500,2000)、[2000,+)四个区间的用户数量,实现代码如下:
-- 统计各消费区间的用户数
SELECT
CASE
WHEN amount < 100 THEN '[0,100)'
WHEN amount < 500 THEN '[100,500)'
WHEN amount < 2000 THEN '[500,2000)'
ELSE '[2000,+)'
END AS consume_range,
COUNT(user_id) AS user_count
FROM user_consume
GROUP BY
CASE
WHEN amount < 100 THEN '[0,100)'
WHEN amount < 500 THEN '[100,500)'
WHEN amount < 2000 THEN '[500,2000)'
ELSE '[2000,+)'
END
ORDER BY MIN(amount);
这种方式的优点是兼容性强,缺点是如果分桶数量多,需要写大量重复的条件判断,维护成本较高。
数据库内置分桶函数方案
Oracle:WIDTH_BUCKET 函数
Oracle提供了WIDTH_BUCKET函数,可以自动按照等宽区间进行分桶,语法为WIDTH_BUCKET(expr, min_value, max_value, num_buckets),含义是将expr的值在min_value到max_value之间划分为num_buckets个等宽区间,小于min_value的返回0,大于max_value的返回num_buckets+1。
同样统计上述消费区间,使用WIDTH_BUCKET的实现如下:
-- 等宽分桶统计,将0-2000划分为3个等宽区间,对应[0,100)、[100,500)、[500,2000),加上小于0和大于2000的情况共5个桶
SELECT
bucket_id,
CASE bucket_id
WHEN 0 THEN '[-,0)'
WHEN 1 THEN '[0,100)'
WHEN 2 THEN '[100,500)'
WHEN 3 THEN '[500,2000)'
WHEN 4 THEN '[2000,+)'
END AS consume_range,
COUNT(user_id) AS user_count
FROM (
SELECT
user_id,
WIDTH_BUCKET(amount, 0, 2000, 3) AS bucket_id
FROM user_consume
) t
GROUP BY bucket_id
ORDER BY bucket_id;
PostgreSQL:width_bucket 函数
PostgreSQL也支持width_bucket函数,用法和Oracle基本一致,只是函数名是小写形式,同样可以实现等宽分桶统计。
-- PostgreSQL等宽分桶统计
SELECT
bucket_id,
CASE bucket_id
WHEN 0 THEN '[-,0)'
WHEN 1 THEN '[0,100)'
WHEN 2 THEN '[100,500)'
WHEN 3 THEN '[500,2000)'
WHEN 4 THEN '[2000,+)'
END AS consume_range,
COUNT(user_id) AS user_count
FROM (
SELECT
user_id,
width_bucket(amount, 0, 2000, 3) AS bucket_id
FROM user_consume
) t
GROUP BY bucket_id
ORDER BY bucket_id;
MySQL:自定义变量模拟分桶
MySQL没有内置的分桶函数,但是可以通过用户变量实现等宽分桶逻辑,示例代码如下:
-- MySQL自定义变量实现等宽分桶
SET @min_val = 0;
SET @max_val = 2000;
SET @bucket_num = 3;
SET @bucket_width = (@max_val - @min_val) / @bucket_num;
SELECT
CASE
WHEN amount < @min_val THEN 0
WHEN amount >= @max_val THEN @bucket_num + 1
ELSE FLOOR((amount - @min_val) / @bucket_width) + 1
END AS bucket_id,
COUNT(user_id) AS user_count
FROM user_consume
GROUP BY bucket_id
ORDER BY bucket_id;
分桶统计常见问题
空桶处理
如果某个区间没有数据,上述查询不会返回该区间的记录,如果需要展示所有预设区间,可以先生成区间维度表再左关联统计数据。
-- 生成区间维度表后左关联统计,保证空桶也展示 WITH bucket_dim AS ( SELECT '[0,100)' AS consume_range, 0 AS min_val, 100 AS max_val UNION ALL SELECT '[100,500)' AS consume_range, 100 AS min_val, 500 AS max_val UNION ALL SELECT '[500,2000)' AS consume_range, 500 AS min_val, 2000 AS max_val UNION ALL SELECT '[2000,+)' AS consume_range, 2000 AS min_val, 9999999 AS max_val ) SELECT d.consume_range, COUNT(u.user_id) AS user_count FROM bucket_dim d LEFT JOIN user_consume u ON u.amount >= d.min_val AND u.amount < d.max_val GROUP BY d.consume_range, d.min_val ORDER BY d.min_val;
边界值归属
分桶时需要明确区间的开闭规则,上述示例统一采用左闭右开规则,实际业务中可以根据需求调整条件判断中的<和<=符号,保证边界值归属符合业务定义。
方案选择建议
如果是简单的不连续区间统计,优先使用CASE WHEN写法,兼容性最好;如果是等宽区间且使用的数据库支持内置分桶函数,优先使用内置函数,代码更简洁;如果是MySQL环境需要做等宽分桶,可以使用自定义变量的方式实现。
SQL数据分桶区间统计WIDTH_BUCKET修改时间:2026-06-15 09:00:16