在mysql的查询操作中,我们经常会遇到表中存在重复数据的情况,比如用户表中同一用户有多条注册记录,订单表中同一订单有多次状态更新记录,这时候就需要用到distinct关键字来完成去重操作。

distinct基础语法
distinct的核心作用是从查询结果中去除重复的行,基础语法格式如下:
-- 基础去重语法 SELECT DISTINCT 字段名 FROM 表名;
需要注意,distinct必须放在所有查询字段的最前面,它会作用于后面所有的字段组合,而不是单独的某一个字段。
单字段去重实战
假设我们有一张用户表user_info,表结构和部分数据如下:
| id | username | city |
|---|---|---|
| 1 | 张三 | 北京 |
| 2 | 李四 | 上海 |
| 3 | 张三 | 北京 |
| 4 | 王五 | 广州 |
| 5 | 李四 | 深圳 |
如果我们想要查询所有不重复的用户名,就可以使用单字段distinct:
-- 查询不重复的用户名 SELECT DISTINCT username FROM user_info;
执行上述语句后,会返回张三、李四、王五三个不重复的用户名,重复的张三和李四记录会被过滤掉。
多字段去重实战
distinct也可以同时对多个字段进行去重,这时候会判断多个字段的组合是否重复,只有所有字段的值都相同时才会被判定为重复数据。
比如我们想要查询不重复的用户名和城市组合,也就是同一个用户在同一城市只有一条记录,就可以这样写:
-- 多字段去重,判断username和city的组合是否重复 SELECT DISTINCT username, city FROM user_info;
执行后结果会包含:张三-北京、李四-上海、王五-广州、李四-深圳,因为李四在北京和深圳是两条不同的记录,所以不会被去重。
distinct和count结合使用
实际业务中我们经常需要统计不重复数据的数量,这时候可以把distinct和count函数结合使用。
比如统计用户表中不重复的用户名数量:
-- 统计不重复的用户名数量 SELECT COUNT(DISTINCT username) AS unique_user_count FROM user_info;
这里count会统计distinct过滤后的不重复用户名的数量,返回结果为3。
如果要统计多字段组合的不重复数量,也可以把多个字段放在distinct后面:
-- 统计不重复的用户名+城市组合数量 SELECT COUNT(DISTINCT username, city) AS unique_combine_count FROM user_info;
distinct和group by的区别
很多用户会混淆distinct和group by的作用,两者都可以实现去重,但是使用场景有区别:
- distinct只是单纯过滤重复行,不能进行分组后的聚合计算,语法更简洁,适合只需要去重不需要额外统计的场景。
- group by除了去重,还可以配合sum、avg等聚合函数做分组统计,适合需要分组计算的业务场景。
比如上面的单字段去重,用group by也可以实现:
-- 用group by实现单字段去重 SELECT username FROM user_info GROUP BY username;
两者的返回结果是一样的,但是执行逻辑不同,在只需要去重的场景下,distinct的语义更清晰。
使用distinct的注意事项
- distinct作用于所有查询字段,比如
SELECT DISTINCT a, b FROM table是对a和b的组合去重,不是只对a去重。 - distinct后面不能跟具体的字段以外的表达式,比如
SELECT DISTINCT COUNT(a) FROM table是不合法的语法。 - 如果查询的字段中包含主键,那么distinct基本不会生效,因为主键本身就是唯一的,所有行的主键都不同。
- distinct会消耗一定的性能,如果表数据量很大,需要评估去重操作的必要性,避免不必要的性能损耗。
注意:如果需要对去重后的结果做进一步筛选,可以在distinct查询后面加WHERE条件,但是WHERE条件要放在FROM表名之后,DISTINCT之前不需要加条件。
比如查询不重复的用户名,且用户id大于2:
-- 带条件的distinct查询 SELECT DISTINCT username FROM user_info WHERE id > 2;
执行后会返回张三、王五、李四三个不重复的用户名,符合id大于2的条件。