在数据库的日常查询需求中,统计某列中各个值的重复次数是非常常见的操作,比如统计用户表中各个城市的用户数量,或者统计订单表中各个状态的订单数量。使用COUNT(*)分组函数和GROUP BY子句可以高效完成这类统计任务。

基础概念说明
GROUP BY子句的作用是将查询结果按照一个或多个列的值进行分组,相同值的行会被划分到同一个组中。而COUNT(*)是聚合函数,用于统计每个分组中的行数,也就是该分组对应列值的出现次数。
基本语法结构如下:
SELECT 列名, COUNT(*) AS 重复次数 FROM 表名 GROUP BY 列名;
具体使用示例
假设我们有一张用户表user_info,其中有一个city列存储用户所在城市,现在需要统计每个城市在表中的出现次数,也就是每个城市的用户数量,对应的查询语句如下:
-- 统计user_info表中每个城市的用户数量 SELECT city, COUNT(*) AS user_count FROM user_info GROUP BY city;
如果只需要查看重复次数大于1的值,也就是存在重复的城市,可以加上HAVING子句进行过滤:
-- 统计重复次数大于1的城市及对应次数 SELECT city, COUNT(*) AS user_count FROM user_info GROUP BY city HAVING COUNT(*) > 1;
多列分组统计
如果需要同时按照多个列进行分组统计,比如统计每个城市下不同性别的用户数量,可以在GROUP BY后面加上多个列名,用逗号分隔:
-- 统计每个城市下不同性别的用户数量 SELECT city, gender, COUNT(*) AS user_count FROM user_info GROUP BY city, gender;
注意事项
- GROUP BY子句后面的列名必须出现在SELECT子句中,除非该列被聚合函数包裹。
- COUNT(*)会统计分组中的所有行,包括值为NULL的行,如果需要排除NULL值,可以使用COUNT(列名)代替。
- HAVING子句用于过滤分组后的结果,而WHERE子句用于过滤分组前的原始数据,二者使用场景不同。
- 如果分组列中存在NULL值,所有NULL值会被划分到同一个分组中进行统计。
结果解读
执行上述单字段分组查询后,结果集会包含两列,第一列是分组的列值,第二列是该列值对应的重复次数。比如查询城市重复次数的结果可能如下:
| city | user_count |
|---|---|
| 北京 | 120 |
| 上海 | 98 |
| 广州 | 85 |
这表示北京在用户表中出现了120次,也就是有120个用户的城市是北京,以此类推。