在SQL查询场景中,重复行的出现往往会导致数据统计偏差、结果冗余等问题,而DISTINCT关键字是官方提供的标准去重方案,能够直接作用于查询结果集,快速排除重复的记录行。

DISTINCT关键字基础用法
DISTINCT关键字的核心作用是返回唯一不同的值,它会扫描查询结果中的所有行,将完全相同的行合并为一条,只保留不重复的记录。基础语法格式如下:
-- 基础去重语法 SELECT DISTINCT 列名1, 列名2, ... FROM 表名 [WHERE 筛选条件];
单字段去重示例
假设我们有一张用户表user_info,其中存在多个用户属于同一个城市的情况,现在需要查询所有不重复的城市名称,就可以使用单字段DISTINCT去重:
-- 查询所有不重复的城市 SELECT DISTINCT city FROM user_info;
上述查询会返回user_info表中所有不同的city值,即使某个城市在表中出现多次,最终结果也只会显示一次。
多字段组合去重
当需要对多个字段的组合进行去重时,DISTINCT会判断所有指定字段的值是否完全相同,只有全部字段都一致的行才会被判定为重复行。例如查询不重复的用户城市和对应的年龄段组合:
-- 多字段组合去重 SELECT DISTINCT city, age_group FROM user_info;
这里只有当city和age_group两个字段的值都完全相同时,才会被判定为重复行并合并。
DISTINCT使用注意事项
- DISTINCT关键字必须放在所有查询列的最前面,不能放在中间或者末尾位置,否则会触发语法错误。
- DISTINCT是对查询结果集的所有列进行组合去重,不是单独对某一个列去重,这一点和
GROUP BY的某些场景有差异。 - 如果查询列中包含
NULL值,DISTINCT会将所有的NULL视为相同的值,最终只会保留一个NULL记录。 - 对大表使用DISTINCT时,因为需要全量扫描和去重计算,可能会带来一定的性能开销,建议结合索引优化查询效率。
DISTINCT与GROUP BY去重对比
很多场景下GROUP BY也可以实现去重效果,两者的核心差异如下:
| 对比维度 | DISTINCT | GROUP BY |
|---|---|---|
| 核心用途 | 专门用于结果集去重 | 用于分组聚合统计 |
| 语法复杂度 | 语法简单,无需额外子句 | 需要配合聚合函数使用,语法相对复杂 |
| 去重逻辑 | 直接合并完全相同的行 | 按分组字段合并行,可同时计算聚合值 |
| 适用场景 | 仅需获取不重复的记录值 | 需要按分组统计数量、求和等场景 |
如果仅需要实现去重获取唯一值的需求,优先使用DISTINCT关键字,语法更简洁,语义也更明确。
常见使用误区
很多开发者会误以为DISTINCT可以单独对某一个列去重,同时保留其他列的不同值,这是错误的。例如以下查询:
-- 错误认知的查询,DISTINCT仍会对所有列组合去重 SELECT DISTINCT city, user_name FROM user_info;
上述查询并不会只保留不同的city,而是保留city和user_name组合不同的记录,如果需要单独对city去重并保留任意一条对应用户名,需要结合子查询或者窗口函数实现,不能仅依靠DISTINCT。