导读:本期聚焦于小伙伴创作的《如何用SQL处理数据清洗中的缺失与异常数据》,敬请观看详情,探索知识的价值。以下视频、文章将为您系统阐述其核心内容与价值。如果您觉得《如何用SQL处理数据清洗中的缺失与异常数据》有用,将其分享出去将是对创作者最好的鼓励。

在数据流转的全链路中,原始数据从业务系统采集后,常常会因为采集故障、录入错误、规则变更等原因出现缺失值、异常值,这些问题如果不处理,会让后续的数据分析结果失真。下面我们就详细介绍如何用SQL完成缺失与异常数据的清洗工作。

如何用SQL处理数据清洗中的缺失与异常数据

一、缺失数据的识别与处理

1. 识别缺失数据

SQL中判断缺失值需要用到IS_NULL或者IS_NOT_NULL条件,注意空字符串和NULL在SQL中是不同的概念,需要分开判断。比如我们要查询用户表中手机号为缺失状态的记录,可以用以下代码:

-- 查询用户表中手机号为空的记录,包含NULL和空字符串两种情况
SELECT user_id, user_name, phone
FROM user_info
WHERE phone IS NULL OR phone = '';

2. 缺失值填充

根据业务规则的不同,缺失值可以选择用固定值、均值、同组其他值等方式填充。比如用户表中年龄缺失的,我们可以按性别分组用同性别的平均年龄填充:

-- 用同性别平均年龄填充年龄缺失值
UPDATE user_info u
JOIN (
    SELECT gender, AVG(age) AS avg_age
    FROM user_info
    WHERE age IS NOT NULL AND age > 0
    GROUP BY gender
) t ON u.gender = t.gender
SET u.age = ROUND(t.avg_age)
WHERE u.age IS NULL;

3. 缺失值删除

如果缺失值占比过高,或者对应字段是核心分析字段,也可以选择直接删除缺失记录。比如订单表中订单金额为空的记录没有分析价值,可以直接删除:

-- 删除订单表中订单金额为空的无效记录
DELETE FROM order_info
WHERE order_amount IS NULL;

二、异常数据的检测与处理

1. 基于统计规则的异常检测

常见的统计规则包括3σ原则、分位数法等,比如用户年龄如果在0到120之外就属于异常值,我们可以用以下代码查询异常年龄记录:

-- 查询年龄不在合理范围的异常用户记录
SELECT user_id, user_name, age
FROM user_info
WHERE age < 0 OR age > 120;

如果是数值型字段,也可以用分位数法检测异常,比如订单金额超过99分位数的视为异常:

-- 查询订单金额超过99分位数的异常订单
WITH order_percentile AS (
    SELECT PERCENTILE_CONT(0.99) WITHIN GROUP (ORDER BY order_amount) AS p99
    FROM order_info
    WHERE order_amount IS NOT NULL
)
SELECT o.order_id, o.user_id, o.order_amount
FROM order_info o, order_percentile op
WHERE o.order_amount > op.p99;

2. 基于业务规则的异常检测

除了统计规则,还可以结合业务逻辑判断异常,比如订单的支付时间不能早于下单时间,出现这种情况就属于异常数据:

-- 查询支付时间早于下单时间的异常订单
SELECT order_id, user_id, create_time, pay_time
FROM order_info
WHERE pay_time IS NOT NULL AND pay_time < create_time;

3. 异常值处理

检测到异常值后,可以根据业务需求选择修正、标记为异常或者直接删除。比如把年龄异常的记录标记为异常,而不是直接删除,方便后续追溯:

-- 给年龄异常的用户添加异常标记
UPDATE user_info
SET is_abnormal = 1
WHERE age < 0 OR age > 120;

三、数据清洗后的校验

完成清洗后,需要再次校验数据质量,确认缺失和异常数据已经被处理。比如可以统计清洗后用户表的缺失值占比、异常值数量:

-- 校验清洗后的用户数据质量
SELECT 
    COUNT(*) AS total_count,
    SUM(CASE WHEN phone IS NULL OR phone = '' THEN 1 ELSE 0 END) AS null_phone_count,
    SUM(CASE WHEN age < 0 OR age > 120 THEN 1 ELSE 0 END) AS abnormal_age_count
FROM user_info;

通过以上的SQL方法,就可以完成大部分常见的缺失与异常数据清洗工作,实际应用中可以根据具体的业务场景调整规则,保障最终数据的可靠性。

SQL数据清洗缺失值处理异常值检测数据质量修改时间:2026-05-28 00:43:50

免责声明:已尽一切努力确保本网站所含信息的准确性。网站部分内容来源于网络或由用户自行发表,内容观点不代表本站立场。本站是个人网站免费分享,内容仅供个人学习、研究或参考使用,如内容中引用了第三方作品,其版权归原作者所有。若内容触犯了您的权益,请联系我们进行处理。
内容垂直聚焦
专注技术核心技术栏目,确保每篇文章深度聚焦于实用技能。从代码技巧到架构设计,为用户提供无干扰的纯技术知识沉淀,精准满足专业提升需求。
知识结构清晰
覆盖从开发到部署的全链路。前端、网络、数据库、服务器、建站、系统层层递进,构建清晰学习路径,帮助用户系统化掌握网站开发与运维所需的核心技术栈。
深度技术解析
拒绝泛泛而谈,深入技术细节与实践难点。无论是数据库优化还是服务器配置,均结合真实场景与代码示例进行剖析,致力于提供可直接应用于工作的解决方案。
专业领域覆盖
精准对应开发生命周期。从前端界面到后端逻辑,从数据库操作到服务器运维,形成完整闭环,一站式满足全栈工程师和运维人员的技术需求。
即学即用高效
内容强调实操性,步骤清晰、代码完整。用户可根据教程直接复现和应用于自身项目,显著缩短从学习到实践的距离,快速解决开发中的具体问题。
持续更新保障
专注既定技术方向进行长期、稳定的内容输出。确保各栏目技术文章持续更新迭代,紧跟主流技术发展趋势,为用户提供经久不衰的学习价值。