Python中怎样处理缺失值

来源:IT编程作者:河北彩花头衔:网络博主
导读:本期聚焦于小伙伴创作的《Python中怎样处理缺失值》,敬请观看详情,探索知识的价值。以下视频、文章将为您系统阐述其核心内容与价值。如果您觉得《Python中怎样处理缺失值》有用,将其分享出去将是对创作者最好的鼓励。

在Python的数据处理流程中,缺失值是数据清洗阶段的核心处理对象,合理处理缺失值能够保证后续数据分析与模型训练的有效性。不同的数据集和业务场景需要选择不同的缺失值处理策略,下面将从基础操作到进阶方法逐步展开说明。

Python中怎样处理缺失值

缺失值的识别

在处理缺失值之前,首先需要准确识别数据中的缺失值。Python的pandas库提供了多种方法来检测缺失值,常见的缺失值表现形式包括NaN(Not a Number)、None以及空字符串等。

以下代码演示了如何识别DataFrame中的缺失值:

import pandas as pd
import numpy as np

# 构造包含缺失值的测试数据
data = {
    'name': ['张三', '李四', '王五', None],
    'age': [20, np.nan, 25, 30],
    'score': [85, 90, np.nan, 88]
}
df = pd.DataFrame(data)

# 判断每个元素是否为缺失值
print("每个元素的缺失值判断结果:")
print(df.isna())

# 统计每列的缺失值数量
print("n每列缺失值数量:")
print(df.isna().sum())

# 查看存在缺失值的行
print("n存在缺失值的行:")
print(df[df.isna().any(axis=1)])

删除缺失值

当缺失值占比极低,或者缺失值所在行/列对整体分析影响较小时,可以直接删除包含缺失值的行或列。pandas的dropna方法支持灵活配置删除规则。

常用的删除参数说明如下:

  • axis:0表示删除行,1表示删除列,默认值为0
  • howany表示存在任意缺失值就删除,all表示全部为缺失值才删除,默认值为any
  • thresh:设置非缺失值的最小数量,满足该数量的行/列才会保留
  • subset:指定只检查特定列/行的缺失值

以下是删除缺失值的代码示例:

# 删除包含任意缺失值的行
df_drop_row = df.dropna()
print("删除包含缺失值的行后:")
print(df_drop_row)

# 删除全部为缺失值的列
df_drop_col = df.dropna(axis=1, how='all')
print("n删除全部为缺失值的列后:")
print(df_drop_col)

# 保留非缺失值数量大于等于2的行
df_thresh = df.dropna(thresh=2)
print("n保留非缺失值数量大于等于2的行后:")
print(df_thresh)

填充缺失值

删除缺失值可能会导致数据量损失,因此更多场景下会选择填充缺失值。pandas的fillna方法支持多种填充方式,也可以结合numpy的函数实现自定义填充逻辑。

固定值填充

使用固定的数值或字符串填充所有缺失值,适用于缺失值含义明确、可以用统一值替代的场景。

# 用0填充所有数值列的缺失值
df_fill_zero = df.fillna(0)
print("用0填充缺失值后:")
print(df_fill_zero)

# 用未知填充name列的缺失值
df_fill_name = df.copy()
df_fill_name['name'] = df_fill_name['name'].fillna('未知')
print("n填充name列缺失值后:")
print(df_fill_name)

统计量填充

根据列的数据特征,使用均值、中位数、众数等统计量填充缺失值,是数值型列最常用的填充方式。

# 用age列的均值填充age列的缺失值
age_mean = df['age'].mean()
df_fill_mean = df.copy()
df_fill_mean['age'] = df_fill_mean['age'].fillna(age_mean)
print("用均值填充age列缺失值后:")
print(df_fill_mean)

# 用score列的中位数填充score列的缺失值
score_median = df['score'].median()
df_fill_median = df.copy()
df_fill_median['score'] = df_fill_median['score'].fillna(score_median)
print("n用中位数填充score列缺失值后:")
print(df_fill_median)

前向/后向填充

前向填充(ffill)是用缺失值前一行/列的非缺失值填充,后向填充(bfill)是用缺失值后一行/列的非缺失值填充,适用于时间序列类数据。

# 前向填充
df_ffill = df.fillna(method='ffill')
print("前向填充后:")
print(df_ffill)

# 后向填充
df_bfill = df.fillna(method='bfill')
print("n后向填充后:")
print(df_bfill)

插值处理缺失值

对于有序数据,插值法可以通过已知数据点估算缺失值,比简单填充更贴合数据本身的分布规律。pandas的interpolate方法支持线性插值、多项式插值等多种插值方式。

# 构造时间序列数据
ts_data = pd.Series([1, np.nan, 3, np.nan, 5], index=pd.date_range('2024-01-01', periods=5))
print("原始时间序列数据:")
print(ts_data)

# 线性插值
ts_interp = ts_data.interpolate(method='linear')
print("n线性插值后:")
print(ts_interp)

不同处理方式的适用场景

实际项目中需要根据数据特点选择处理方式,以下是常见场景的参考:

处理方式适用场景注意事项
删除缺失值缺失值占比极低(如小于5%),或缺失值所在行/列无分析价值避免大量删除数据导致样本偏差
固定值填充缺失值有明确默认含义,如性别缺失填未知、数量缺失填0固定值需要符合业务逻辑,不能凭空设定
统计量填充数值型列缺失,且数据分布相对均匀异常值会影响均值填充的效果,可优先考虑中位数
前向/后向填充时间序列、有序序列数据,缺失值前后数据关联性强数据顺序不能打乱,否则填充结果无意义
插值处理有序数据,且数据变化有连续规律复杂插值方式需要验证拟合效果,避免过拟合

Python缺失值处理pandasnumpyfillna修改时间:2026-06-14 18:12:20

免责声明:​ 已尽一切努力确保本网站所含信息的准确性。网站内容多为原创整理与精心编撰,观点力求客观中立。本站旨在免费分享,内容仅供个人学习、研究或参考使用。若引用了第三方作品,版权归原作者所有。如内容涉及您的权益,请联系我们处理。
内容垂直聚焦
专注技术核心技术栏目,确保每篇文章深度聚焦于实用技能。从代码技巧到架构设计,为用户提供无干扰的纯技术知识沉淀,精准满足专业提升需求。
知识结构清晰
覆盖从开发到部署的全链路。AI、前端、编程、数据库、服务器、建站、系统层层递进,构建清晰学习路径,帮助用户系统化掌握开发与运维所需的核心技术。
深度技术解析
拒绝泛泛而谈,深入技术细节与实践难点。无论是数据库优化还是服务器配置,均结合真实场景与代码示例进行剖析,致力于提供可直接应用于工作的解决方案。
专业领域覆盖
精准对应开发生命周期。从前端界面到后端编程,从数据库操作到服务器运维,形成完整闭环,一站式满足全栈工程师和运维人员的技术需求。
即学即用高效
内容强调实操性,步骤清晰、代码完整。用户可根据教程直接复现和应用于自身项目,显著缩短从学习到实践的距离,快速解决开发中的具体问题。
持续更新保障
专注既定技术方向进行长期、稳定的内容输出。确保各栏目技术文章持续更新迭代,紧跟主流技术发展趋势,为用户提供经久不衰的学习价值。