在mysql的查询操作中,当我们需要把多个结构相同的查询结果合并成一个结果集,并且自动去除重复的记录时,union操作符是最常用的工具之一。它可以在合并结果的同时完成去重工作,不需要额外编写复杂的去重逻辑。

union的基本去重特性
mysql中的union操作符默认就具备去重功能,当我们使用union连接多个select语句的查询结果时,它会自动对比所有结果行的数据,将完全相同的重复行只保留一条,最终返回去重后的结果集。需要注意的是,参与union合并的所有select语句,查询的字段数量必须一致,对应字段的数据类型也需要兼容,否则会执行失败。
union和union all的区别
很多用户会混淆union和union all的用法,两者的核心差异就在于是否去重:
- union:合并多个查询结果后,会自动对最终结果集进行去重,去除所有重复的记录,执行过程中会进行额外的去重排序操作,性能相对低一些。
- union all:直接合并多个查询结果,不会做任何去重处理,也不会进行额外的排序操作,性能比union更高,适合确定没有重复数据或者不需要去重的场景。
union去重的实际使用示例
假设我们有一张用户表user,里面存储了不同渠道注册的用户信息,现在需要查询所有状态为正常的用户,同时合并两个不同查询条件的结果并去重,具体实现如下:
-- 查询渠道A状态正常的用户,和渠道B状态正常的用户,合并结果并去重 SELECT user_id, user_name, channel FROM user WHERE status = 1 AND channel = 'A' UNION SELECT user_id, user_name, channel FROM user WHERE status = 1 AND channel = 'B';
如果两个查询中存在user_id、user_name、channel完全相同的记录,union会自动只保留一条,最终返回的结果就是去重后的用户数据。
使用union去重的注意事项
在使用union进行去重时,有几个需要注意的点:
- union的去重是对整个结果行的所有字段进行对比,只有所有字段的值都完全相同时才会判定为重复行,只要有一个字段不同就会保留。
- 如果需要对合并后的去重结果进行排序,只能在最后一个select语句后面加ORDER BY子句,不能在单个select语句中单独加排序。
- 当数据量较大时,union的去重操作会消耗较多性能,如果确定合并的结果没有重复数据,建议优先使用union all提升查询效率。
- 参与union的每个select语句都可以单独使用WHERE、GROUP BY等子句,只要最终查询的字段数量和类型匹配即可。
复杂场景下的union去重应用
如果我们需要合并不同表的查询结果并去重,只要保证两个表的查询字段数量和类型一致就可以使用union。比如有一张普通用户表normal_user和一张会员用户表vip_user,现在要查询所有用户的姓名和手机号并去重:
-- 合并普通用户和会员用户的信息,去重后返回 SELECT name, phone FROM normal_user UNION SELECT name, phone FROM vip_user;
如果两个表中存在姓名和手机号都相同的记录,union会自动去重,避免返回重复的用户信息。