在mysql数据库的实际使用中,查询不重复的行内容是高频需求,比如统计用户表中所有不重复的城市、获取订单表中不重复的商品ID等场景都需要用到去重查询。不同的去重方式适用不同的业务场景,掌握这些方法能提升数据处理的效率。

使用DISTINCT关键字去重
DISTINCT是mysql中最基础的去重关键字,用于返回唯一不同的值,它会作用于select后面所有的列,只有当所有列的值都相同时,才会被判定为重复行。
单列去重
如果只需要对单个字段进行去重,直接在字段前添加DISTINCT即可。
-- 查询用户表中所有不重复的所在城市 SELECT DISTINCT city FROM user_table;
多列去重
如果需要对多个列的组合进行去重,DISTINCT需要放在所有目标字段的最前面,只要这些字段的组合值不同,就会被保留。
-- 查询用户表中不重复的(城市, 年龄)组合 SELECT DISTINCT city, age FROM user_table;
使用GROUP BY分组去重
GROUP BY本身是用于分组聚合的关键字,利用分组后每组只返回一条记录的特性,也可以实现去重查询,它还可以配合聚合函数获取额外的统计信息。
基础分组去重
对目标字段进行分组,就可以得到该字段的所有不重复值,效果和DISTINCT类似。
-- 查询用户表中所有不重复的所在城市,效果和DISTINCT一致 SELECT city FROM user_table GROUP BY city;
带聚合函数的分组去重
分组去重的优势是可以同时获取其他统计信息,比如统计每个不重复城市对应的用户数量。
-- 查询不重复的城市,以及每个城市的用户数 SELECT city, COUNT(*) AS user_count FROM user_table GROUP BY city;
两种去重方式的区别
DISTINCT和GROUP BY虽然都能实现去重,但是适用场景和特性有所不同,具体差异如下:
| 对比项 | DISTINCT | GROUP BY |
|---|---|---|
| 适用场景 | 仅需要获取不重复的行内容,不需要额外统计 | 去重的同时需要配合聚合函数做统计 |
| 性能表现 | 单字段去重时性能略优 | 多字段分组或需要聚合时更合适 |
| 语法限制 | 只能放在所有select字段的最前面 | 可以配合HAVING子句过滤分组结果 |
去重查询的注意事项
- 使用DISTINCT时,null值会被视为相同的值,多个null只会保留一条记录。
- 如果需要对去重后的结果排序,直接在查询末尾添加ORDER BY子句即可,DISTINCT和GROUP BY的结果都支持排序。
- 当表数据量非常大时,去重查询会消耗较多资源,建议对去重字段建立索引提升查询效率。
- 不要对大文本类型的字段使用去重查询,因为对比大文本内容的开销很高,容易导致查询缓慢。
常见场景示例
假设有一张订单表order_table,包含order_id、user_id、product_id、order_time字段,需要查询所有购买过商品的用户ID,也就是不重复的user_id。
-- 方法1:使用DISTINCT SELECT DISTINCT user_id FROM order_table; -- 方法2:使用GROUP BY SELECT user_id FROM order_table GROUP BY user_id;
如果需要同时统计每个用户的下单次数,就更适合用GROUP BY的方式:
SELECT user_id, COUNT(order_id) AS order_count FROM order_table GROUP BY user_id;