在数据库日常维护和业务开发中,经常会遇到需要排查表中重复记录的需求,比如用户表中存在重复的注册手机号、商品表中存在重复的商品编号等。通过sql的select语句结合合适的子句,可以高效完成这类查询任务。

单字段重复记录查询
如果只需要查询单个字段存在重复的记录,最常用的方式是使用GROUP BY配合HAVING子句。首先通过GROUP BY对目标字段分组,统计每组的数量,再用HAVING筛选出数量大于1的组,就是存在重复的字段值。
假设我们有用户表user_info,结构如下:
| 字段名 | 类型 | 说明 |
|---|---|---|
| id | int | 用户ID,主键 |
| user_name | varchar | 用户名 |
| phone | varchar | 手机号 |
如果要查询重复的手机号,对应的sql语句如下:
-- 查询重复的手机号及重复次数 SELECT phone, COUNT(*) AS repeat_count FROM user_info GROUP BY phone HAVING COUNT(*) > 1;
如果需要查询所有重复手机号对应的完整用户记录,可以基于上面的结果做关联查询:
-- 查询所有重复手机号对应的完整用户记录
SELECT u.*
FROM user_info u
JOIN (
SELECT phone
FROM user_info
GROUP BY phone
HAVING COUNT(*) > 1
) t ON u.phone = t.phone
ORDER BY u.phone;
多字段重复记录查询
当需要根据多个字段的组合判断重复时,只需要在GROUP BY后面加上多个字段即可,判断逻辑和单字段一致。
比如要查询user_info表中用户名和手机号都重复的记录,sql语句如下:
-- 查询用户名和手机号都重复的记录及重复次数 SELECT user_name, phone, COUNT(*) AS repeat_count FROM user_info GROUP BY user_name, phone HAVING COUNT(*) > 1;
同样,如果需要获取这些重复组合对应的所有完整记录,关联查询的写法如下:
-- 查询用户名和手机号都重复的所有完整记录
SELECT u.*
FROM user_info u
JOIN (
SELECT user_name, phone
FROM user_info
GROUP BY user_name, phone
HAVING COUNT(*) > 1
) t ON u.user_name = t.user_name AND u.phone = t.phone
ORDER BY u.user_name, u.phone;
使用窗口函数查询重复记录
如果数据库支持窗口函数,也可以使用ROW_NUMBER()来实现重复记录的查询,这种方式可以更灵活地控制重复记录的排序逻辑。
还是以user_info表的重复手机号查询为例,使用窗口函数的写法如下:
-- 使用窗口函数标记重复记录,rn>1的就是重复记录
SELECT *
FROM (
SELECT *,
ROW_NUMBER() OVER (PARTITION BY phone ORDER BY id) AS rn
FROM user_info
) t
WHERE t.rn > 1;
这里PARTITION BY phone表示按手机号分组,ORDER BY id表示组内按用户ID排序,ROW_NUMBER()会给每个组内的记录生成从1开始的序号,序号大于1的就说明是重复的记录。
注意事项
- 使用
GROUP BY时,select后面只能出现分组字段和聚合函数,不能直接写其他非分组字段,否则可能返回不确定的结果。 - 如果表数据量很大,建议在分组字段上建立索引,可以提升查询效率。
- 窗口函数的写法在MySQL8.0+、PostgreSQL、SQL Server等主流数据库中都支持,低版本数据库可能需要使用前面两种写法。
注意:查询重复记录仅用于数据排查,不要直接基于查询结果做删除操作,避免误删有效数据,删除前一定要做好数据备份。