SQL 如何发现脏数据?

来源:Vuejs社区作者:台湾程序员头衔:程序员
导读:本期聚焦于小伙伴创作的《SQL 如何发现脏数据?》,敬请观看详情,探索知识的价值。以下视频、文章将为您系统阐述其核心内容与价值。如果您觉得《SQL 如何发现脏数据?》有用,将其分享出去将是对创作者最好的鼓励。

脏数据指的是不符合预期规则、存在异常或者与业务逻辑冲突的数据库记录,常见的脏数据包括空值不符合约束、重复记录、字段格式错误、关联数据缺失等类型,通过合理的SQL查询可以高效定位这些问题数据。

常见脏数据类型与对应的SQL发现方法

1. 空值异常数据

部分字段在业务规则中要求必须非空,如果出现空值就属于脏数据,可以通过IS NULL条件筛选。

例如用户表的手机号字段要求非空,查询空手机号的脏数据:

-- 查询用户表中手机号为空的记录
SELECT user_id, user_name, phone
FROM user_info
WHERE phone IS NULL;

2. 重复数据

重复数据指多个记录的指定字段值完全相同,违反唯一性约束,可通过GROUP BY配合HAVING筛选。

例如查询订单表中订单号重复的记录:

-- 查询重复的订单号及对应的记录
SELECT order_no, COUNT(*) AS repeat_count
FROM order_info
GROUP BY order_no
HAVING COUNT(*) > 1;

如果需要查看重复订单的完整信息,可以结合子查询使用:

-- 查询所有重复的订单记录详情
SELECT *
FROM order_info
WHERE order_no IN (
    SELECT order_no
    FROM order_info
    GROUP BY order_no
    HAVING COUNT(*) > 1
)
ORDER BY order_no;

3. 字段格式异常数据

当字段有固定格式要求时,不符合格式的属于脏数据,可通过字符串函数或者正则匹配筛选,不同数据库的正则语法略有差异,以下是MySQL的示例。

例如手机号要求为11位数字,查询格式错误的手机号:

-- 查询手机号不是11位纯数字的记录
SELECT user_id, user_name, phone
FROM user_info
WHERE phone IS NOT NULL
  AND (LENGTH(phone) != 11 OR phone NOT REGEXP '^[0-9]+$');

4. 关联数据缺失

如果表之间存在外键关联,但是子表中存在父表没有对应记录的情况,也属于脏数据,可通过LEFT JOIN筛选。

例如订单表关联用户表,查询订单对应的用户不存在的记录:

-- 查询关联用户不存在的订单记录
SELECT o.order_id, o.order_no, o.user_id
FROM order_info o
LEFT JOIN user_info u ON o.user_id = u.user_id
WHERE u.user_id IS NULL;

5. 数值范围异常数据

部分数值字段有合理的范围要求,超出范围的属于脏数据,可通过范围条件筛选。

例如商品库存不能为负数,查询库存为负的商品记录:

-- 查询库存为负的商品记录
SELECT product_id, product_name, stock
FROM product_info
WHERE stock < 0;

批量校验脏数据的通用思路

如果需要同时校验多种规则的脏数据,可以把不同的校验逻辑拆分为多个查询,也可以根据需求合并条件,建议先明确业务的数据规则,再针对性编写对应的SQL语句,定位到脏数据后再进行后续的数据清洗操作。

注意:执行删除或者修改脏数据的操作前,一定要先备份相关数据,避免误操作导致数据丢失。

SQL脏数据数据校验数据清洗数据库查询修改时间:2026-06-22 04:54:55

免责声明:​ 已尽一切努力确保本网站所含信息的准确性。网站内容多为原创整理与精心编撰,观点力求客观中立。本站旨在免费分享,内容仅供个人学习、研究或参考使用。若引用了第三方作品,版权归原作者所有。如内容涉及您的权益,请联系我们处理。
内容垂直聚焦
专注技术核心技术栏目,确保每篇文章深度聚焦于实用技能。从代码技巧到架构设计,为用户提供无干扰的纯技术知识沉淀,精准满足专业提升需求。
知识结构清晰
覆盖从开发到部署的全链路。AI、前端、编程、数据库、服务器、建站、系统层层递进,构建清晰学习路径,帮助用户系统化掌握开发与运维所需的核心技术。
深度技术解析
拒绝泛泛而谈,深入技术细节与实践难点。无论是数据库优化还是服务器配置,均结合真实场景与代码示例进行剖析,致力于提供可直接应用于工作的解决方案。
专业领域覆盖
精准对应开发生命周期。从前端界面到后端编程,从数据库操作到服务器运维,形成完整闭环,一站式满足全栈工程师和运维人员的技术需求。
即学即用高效
内容强调实操性,步骤清晰、代码完整。用户可根据教程直接复现和应用于自身项目,显著缩短从学习到实践的距离,快速解决开发中的具体问题。
持续更新保障
专注既定技术方向进行长期、稳定的内容输出。确保各栏目技术文章持续更新迭代,紧跟主流技术发展趋势,为用户提供经久不衰的学习价值。