在SQL日常查询中,我们经常遇到查询结果出现重复行的情况,比如统计用户访问记录时同一用户多次访问会产生重复条目,这时候就需要用到去重操作。DISTINCT是SQL语言中最基础也最简单的去重关键字,能快速帮我们过滤掉重复的结果行。

DISTINCT基础用法
DISTINCT的使用非常简单,只需要把它放在SELECT关键字的后面,指定要去重的列即可,它的作用是保留指定列组合的唯一值,过滤掉完全相同的重复行。
基本语法如下:
-- 对单列去重,返回该列所有不重复的值 SELECT DISTINCT 列名 FROM 表名; -- 对多列去重,返回多列组合不重复的记录 SELECT DISTINCT 列名1, 列名2 FROM 表名;
举个实际的例子,假设我们有一张用户访问记录表user_visit,表结构如下:
| user_id | visit_date | page_url |
|---|---|---|
| 1001 | 2024-05-01 | /home |
| 1001 | 2024-05-01 | /home |
| 1002 | 2024-05-01 | /product |
| 1001 | 2024-05-02 | /home |
如果我们想查询所有访问过网站的不重复用户ID,就可以用下面的语句:
SELECT DISTINCT user_id FROM user_visit;
执行后结果会返回1001和1002两个用户ID,重复的1001只会出现一次。
DISTINCT使用注意事项
使用DISTINCT的时候有几个需要注意的点,避免出错:
- DISTINCT是对后面所有指定列的组合去重,不是单独对某一列去重。比如
SELECT DISTINCT user_id, visit_date FROM user_visit会保留user_id和visit_date组合不重复的记录,单独看user_id可能还是有重复。 - DISTINCT只能放在SELECT关键字后面,不能放在其他位置,否则会报语法错误。
- 如果查询中包含主键列,因为主键本身唯一,加DISTINCT不会生效,也不会报错,但属于无意义操作。
- DISTINCT会对所有结果行进行去重,数据量大的时候可能会有一定的性能开销,需要根据实际情况选择是否使用。
其他常见去重方法对比
除了DISTINCT之外,SQL中还有其他的去重方式,我们可以根据不同的场景选择:
GROUP BY去重
GROUP BY也能实现去重效果,原理是把相同值的行分到同一组,每组只返回一条记录,用法如下:
-- 和DISTINCT单列去重效果一致 SELECT user_id FROM user_visit GROUP BY user_id; -- 多列去重 SELECT user_id, visit_date FROM user_visit GROUP BY user_id, visit_date;
和DISTINCT相比,GROUP BY更适合需要同时做聚合统计的场景,比如去重的同时统计每个用户的访问次数,而DISTINCT更适合单纯的去重查询,语法更简洁。
窗口函数去重
如果需要保留重复行中的某一条(比如保留最新的一条),可以用ROW_NUMBER()窗口函数,给相同分组的行编号,再取编号为1的行:
SELECT user_id, visit_date, page_url
FROM (
SELECT *,
ROW_NUMBER() OVER(PARTITION BY user_id, visit_date ORDER BY visit_date DESC) AS rn
FROM user_visit
) t
WHERE rn = 1;这种方式更灵活,能自定义保留哪一条重复记录,但语法相对复杂,适合有特定保留规则的去重场景。
总结
如果只是需要简单的过滤重复数据,DISTINCT是SQL中最简单直接的去重方法,语法简单易懂,上手难度低。如果需要同时做聚合统计,或者需要自定义保留重复行中的特定记录,可以选择GROUP BY或者窗口函数。大家可以根据实际的业务需求选择合适的去重方式,提升查询效率和结果准确性。