SQL数据分桶统计怎么做？区间统计实现方案解析

来源：PHP编程网作者：缅甸程序员头衔：程序员

导读：本期聚焦于小伙伴创作的《SQL数据分桶统计怎么做？区间统计实现方案解析》，敬请观看详情，探索知识的价值。以下视频、文章将为您系统阐述其核心内容与价值。如果您觉得《SQL数据分桶统计怎么做？区间统计实现方案解析》有用，将其分享出去将是对创作者最好的鼓励。

SQL数据分桶统计是处理连续数值数据的常用操作，核心是将数值按照预设的区间范围划分，再统计每个区间内的数据数量，广泛应用于用户消费分层、成绩分段、年龄分布等分析场景。

通用方案：CASE WHEN 条件判断

所有支持SQL的数据库都可以使用CASE WHEN语句实现分桶，这种方式灵活性最高，可以自定义任意不连续的区间规则。

假设我们有一张用户消费记录表user_consume，结构如下：

字段名	类型	说明
user_id	INT	用户ID
amount	DECIMAL(10,2)	消费金额

现在需要统计消费金额在[0,100)、[100,500)、[500,2000)、[2000,+)四个区间的用户数量，实现代码如下：

-- 统计各消费区间的用户数
SELECT 
  CASE 
    WHEN amount < 100 THEN '[0,100)'
    WHEN amount < 500 THEN '[100,500)'
    WHEN amount < 2000 THEN '[500,2000)'
    ELSE '[2000,+)'
  END AS consume_range,
  COUNT(user_id) AS user_count
FROM user_consume
GROUP BY 
  CASE 
    WHEN amount < 100 THEN '[0,100)'
    WHEN amount < 500 THEN '[100,500)'
    WHEN amount < 2000 THEN '[500,2000)'
    ELSE '[2000,+)'
  END
ORDER BY MIN(amount);

这种方式的优点是兼容性强，缺点是如果分桶数量多，需要写大量重复的条件判断，维护成本较高。

数据库内置分桶函数方案

Oracle：WIDTH_BUCKET 函数

Oracle提供了WIDTH_BUCKET函数，可以自动按照等宽区间进行分桶，语法为WIDTH_BUCKET(expr, min_value, max_value, num_buckets)，含义是将expr的值在min_value到max_value之间划分为num_buckets个等宽区间，小于min_value的返回0，大于max_value的返回num_buckets+1。

同样统计上述消费区间，使用WIDTH_BUCKET的实现如下：

-- 等宽分桶统计，将0-2000划分为3个等宽区间，对应[0,100)、[100,500)、[500,2000)，加上小于0和大于2000的情况共5个桶
SELECT 
  bucket_id,
  CASE bucket_id
    WHEN 0 THEN '[-,0)'
    WHEN 1 THEN '[0,100)'
    WHEN 2 THEN '[100,500)'
    WHEN 3 THEN '[500,2000)'
    WHEN 4 THEN '[2000,+)'
  END AS consume_range,
  COUNT(user_id) AS user_count
FROM (
  SELECT 
    user_id,
    WIDTH_BUCKET(amount, 0, 2000, 3) AS bucket_id
  FROM user_consume
) t
GROUP BY bucket_id
ORDER BY bucket_id;

PostgreSQL：width_bucket 函数

PostgreSQL也支持width_bucket函数，用法和Oracle基本一致，只是函数名是小写形式，同样可以实现等宽分桶统计。

-- PostgreSQL等宽分桶统计
SELECT 
  bucket_id,
  CASE bucket_id
    WHEN 0 THEN '[-,0)'
    WHEN 1 THEN '[0,100)'
    WHEN 2 THEN '[100,500)'
    WHEN 3 THEN '[500,2000)'
    WHEN 4 THEN '[2000,+)'
  END AS consume_range,
  COUNT(user_id) AS user_count
FROM (
  SELECT 
    user_id,
    width_bucket(amount, 0, 2000, 3) AS bucket_id
  FROM user_consume
) t
GROUP BY bucket_id
ORDER BY bucket_id;

MySQL：自定义变量模拟分桶

MySQL没有内置的分桶函数，但是可以通过用户变量实现等宽分桶逻辑，示例代码如下：

-- MySQL自定义变量实现等宽分桶
SET @min_val = 0;
SET @max_val = 2000;
SET @bucket_num = 3;
SET @bucket_width = (@max_val - @min_val) / @bucket_num;

SELECT 
  CASE 
    WHEN amount < @min_val THEN 0
    WHEN amount >= @max_val THEN @bucket_num + 1
    ELSE FLOOR((amount - @min_val) / @bucket_width) + 1
  END AS bucket_id,
  COUNT(user_id) AS user_count
FROM user_consume
GROUP BY bucket_id
ORDER BY bucket_id;

分桶统计常见问题

空桶处理

如果某个区间没有数据，上述查询不会返回该区间的记录，如果需要展示所有预设区间，可以先生成区间维度表再左关联统计数据。

-- 生成区间维度表后左关联统计，保证空桶也展示
WITH bucket_dim AS (
  SELECT '[0,100)' AS consume_range, 0 AS min_val, 100 AS max_val
  UNION ALL
  SELECT '[100,500)' AS consume_range, 100 AS min_val, 500 AS max_val
  UNION ALL
  SELECT '[500,2000)' AS consume_range, 500 AS min_val, 2000 AS max_val
  UNION ALL
  SELECT '[2000,+)' AS consume_range, 2000 AS min_val, 9999999 AS max_val
)
SELECT 
  d.consume_range,
  COUNT(u.user_id) AS user_count
FROM bucket_dim d
LEFT JOIN user_consume u 
  ON u.amount >= d.min_val AND u.amount < d.max_val
GROUP BY d.consume_range, d.min_val
ORDER BY d.min_val;

边界值归属

分桶时需要明确区间的开闭规则，上述示例统一采用左闭右开规则，实际业务中可以根据需求调整条件判断中的<和<=符号，保证边界值归属符合业务定义。

方案选择建议

如果是简单的不连续区间统计，优先使用CASE WHEN写法，兼容性最好；如果是等宽区间且使用的数据库支持内置分桶函数，优先使用内置函数，代码更简洁；如果是MySQL环境需要做等宽分桶，可以使用自定义变量的方式实现。

SQL 数据分桶区间统计 WIDTH_BUCKET修改时间：2026-06-15 09:00:16

免责声明：已尽一切努力确保本网站所含信息的准确性。网站内容多为原创整理与精心编撰，观点力求客观中立。本站旨在免费分享，内容仅供个人学习、研究或参考使用。若引用了第三方作品，版权归原作者所有。如内容涉及您的权益，请联系我们处理。