在数据库运维和开发中,重复数据会影响统计结果的准确性,筛选出记录数大于1的重复数据是数据清洗的基础操作,核心实现依赖GROUP BY分组和HAVING COUNT过滤的组合使用。

核心原理说明
要筛选重复数据,首先需要明确重复的判断维度,比如是单个字段值重复,还是多个字段组合值重复。GROUP BY的作用是将表中相同维度的记录归为一组,COUNT(*)可以统计每组内的记录数量,而HAVING子句可以对分组后的结果进行过滤,只保留满足指定条件的分组,这里的条件就是分组记录数大于1。
基础语法结构
筛选单字段重复数据的基础语法如下:
-- 筛选指定字段重复的记录,返回重复字段值和重复次数 SELECT 重复判断字段, COUNT(*) AS 重复次数 FROM 目标表名 GROUP BY 重复判断字段 HAVING COUNT(*) > 1;
其中HAVING后面的COUNT(*)可以替换为COUNT(1)或者COUNT(指定非空字段),结果是一致的。
不同场景的查询示例
单字段重复数据筛选
假设有一张用户表user_info,其中email字段可能存在重复,需要筛选出重复的邮箱和对应的重复次数,SQL语句如下:
SELECT email, COUNT(*) AS 重复次数 FROM user_info GROUP BY email HAVING COUNT(*) > 1;
执行后可以得到所有重复出现的邮箱值,以及每个邮箱在表中出现的次数。
多字段组合重复筛选
如果需要判断多个字段同时重复才算重复数据,比如user_info表中username和phone两个字段都相同的记录才算重复,只需要在GROUP BY后面添加多个字段即可:
SELECT username, phone, COUNT(*) AS 重复次数 FROM user_info GROUP BY username, phone HAVING COUNT(*) > 1;
获取重复数据的完整记录
上面的查询只能得到重复字段和重复次数,如果需要获取重复数据对应的所有完整记录,可以结合子查询实现,还是以user_info表email重复为例:
-- 先查询出重复的邮箱列表,再关联原表获取完整记录
SELECT *
FROM user_info
WHERE email IN (
SELECT email
FROM user_info
GROUP BY email
HAVING COUNT(*) > 1
)
ORDER BY email;
如果需要排除每组重复数据中的第一条,只保留多余的重复记录,可以结合窗口函数实现,以下是MySQL 8.0及以上版本的示例:
WITH tmp AS (
SELECT *,
ROW_NUMBER() OVER (PARTITION BY email ORDER BY id) AS rn
FROM user_info
)
SELECT *
FROM tmp
WHERE rn > 1;
注意事项
- 使用GROUP BY时,SELECT后面只能出现分组字段和聚合函数,不能直接写其他非分组字段,否则查询结果不符合预期。
- HAVING和WHERE的区别是,WHERE是在分组前过滤行数据,HAVING是在分组后过滤分组结果,所以筛选记录数的条件必须放在HAVING中。
- 如果表数据量较大,建议对分组字段建立索引,可以提升GROUP BY和HAVING的查询效率。
- 不同数据库对COUNT(*)的处理逻辑略有差异,但结果都是统计分组内的记录总数,可放心使用。
注意:执行删除重复数据的操作前,建议先通过上述查询确认重复数据的内容,避免误删有效数据。
SQLHAVING_COUNT重复数据筛选数据库查询修改时间:2026-06-27 02:36:29