脏数据指的是不符合预期规则、存在异常或者与业务逻辑冲突的数据库记录,常见的脏数据包括空值不符合约束、重复记录、字段格式错误、关联数据缺失等类型,通过合理的SQL查询可以高效定位这些问题数据。
常见脏数据类型与对应的SQL发现方法
1. 空值异常数据
部分字段在业务规则中要求必须非空,如果出现空值就属于脏数据,可以通过IS NULL条件筛选。
例如用户表的手机号字段要求非空,查询空手机号的脏数据:
-- 查询用户表中手机号为空的记录 SELECT user_id, user_name, phone FROM user_info WHERE phone IS NULL;
2. 重复数据
重复数据指多个记录的指定字段值完全相同,违反唯一性约束,可通过GROUP BY配合HAVING筛选。
例如查询订单表中订单号重复的记录:
-- 查询重复的订单号及对应的记录 SELECT order_no, COUNT(*) AS repeat_count FROM order_info GROUP BY order_no HAVING COUNT(*) > 1;
如果需要查看重复订单的完整信息,可以结合子查询使用:
-- 查询所有重复的订单记录详情
SELECT *
FROM order_info
WHERE order_no IN (
SELECT order_no
FROM order_info
GROUP BY order_no
HAVING COUNT(*) > 1
)
ORDER BY order_no;
3. 字段格式异常数据
当字段有固定格式要求时,不符合格式的属于脏数据,可通过字符串函数或者正则匹配筛选,不同数据库的正则语法略有差异,以下是MySQL的示例。
例如手机号要求为11位数字,查询格式错误的手机号:
-- 查询手机号不是11位纯数字的记录 SELECT user_id, user_name, phone FROM user_info WHERE phone IS NOT NULL AND (LENGTH(phone) != 11 OR phone NOT REGEXP '^[0-9]+$');
4. 关联数据缺失
如果表之间存在外键关联,但是子表中存在父表没有对应记录的情况,也属于脏数据,可通过LEFT JOIN筛选。
例如订单表关联用户表,查询订单对应的用户不存在的记录:
-- 查询关联用户不存在的订单记录 SELECT o.order_id, o.order_no, o.user_id FROM order_info o LEFT JOIN user_info u ON o.user_id = u.user_id WHERE u.user_id IS NULL;
5. 数值范围异常数据
部分数值字段有合理的范围要求,超出范围的属于脏数据,可通过范围条件筛选。
例如商品库存不能为负数,查询库存为负的商品记录:
-- 查询库存为负的商品记录 SELECT product_id, product_name, stock FROM product_info WHERE stock < 0;
批量校验脏数据的通用思路
如果需要同时校验多种规则的脏数据,可以把不同的校验逻辑拆分为多个查询,也可以根据需求合并条件,建议先明确业务的数据规则,再针对性编写对应的SQL语句,定位到脏数据后再进行后续的数据清洗操作。
注意:执行删除或者修改脏数据的操作前,一定要先备份相关数据,避免误操作导致数据丢失。