pandas如何用pd.NA/pd.NA-aware类型处理缺失值

来源：编程网作者：新井头衔：网络博主

导读：本期聚焦于小伙伴创作的《pandas如何用pd.NA/pd.NA-aware类型处理缺失值》，敬请观看详情，探索知识的价值。以下视频、文章将为您系统阐述其核心内容与价值。如果您觉得《pandas如何用pd.NA/pd.NA-aware类型处理缺失值》有用，将其分享出去将是对创作者最好的鼓励。

在pandas的数据处理流程中，缺失值处理是绕不开的环节，传统的缺失值标记如浮点型的NaN、Python原生的None存在类型适配性不足的问题，比如NaN无法在整数、字符串类型中直接使用，pd.NA和pd.NA-aware类型的设计就是为了解决这类问题，提供统一的缺失值语义。

pd.NA的基本特性

pd.NA是pandas 1.0版本之后引入的通用缺失值标记，它的核心特点是适配所有pandas的数据类型，不会出现传统缺失值标记的类型冲突问题。和NaN、None相比，pd.NA的语义更明确，统一表示缺失值，不需要根据数据类型选择不同的标记。

我们可以通过简单的代码验证pd.NA的特性：

import pandas as pd
import numpy as np

# 对比不同缺失值标记的类型
print(type(np.nan))   # 输出 <class 'float'>
print(type(None))     # 输出 <class 'NoneType'>
print(type(pd.NA))    # 输出 <class 'pandas._libs.missing.NAType'>

# pd.NA可以赋值给任意类型的Series
s_int = pd.Series([1, pd.NA, 3], dtype="Int64")  # 大写Int64是可空整数类型
s_str = pd.Series(["a", pd.NA, "c"], dtype="string")
print(s_int)
print(s_str)

什么是pd.NA-aware类型

pd.NA-aware类型指的是原生支持pd.NA作为缺失值标记的数据类型，这类类型的名称通常首字母大写，比如Int64、Float64、string、boolean等，和传统的numpy-backed类型（如int64、float64）区分开。

传统类型不支持pd.NA，赋值时会出现问题：

# 传统int类型不支持pd.NA，会报错
try:
    s_old_int = pd.Series([1, pd.NA, 3], dtype="int64")
except Exception as e:
    print(f"错误提示：{e}")

# 传统float类型会把pd.NA转为NaN
s_old_float = pd.Series([1.0, pd.NA, 3.0], dtype="float64")
print(s_old_float)

使用pd.NA和pd.NA-aware类型处理缺失值的常见操作

标记缺失值

在创建可空类型的Series或DataFrame时，可以直接使用pd.NA标记缺失值，也可以将原有的NaN、None转换为pd.NA：

# 直接创建带pd.NA的可空类型Series
s_bool = pd.Series([True, pd.NA, False], dtype="boolean")
print(s_bool)

# 将原有含NaN的Series转换为pd.NA-aware类型
df = pd.DataFrame({
    "col1": [1, np.nan, 3],
    "col2": ["x", None, "z"]
})
# 转换列类型，NaN和None会自动转为pd.NA
df["col1"] = df["col1"].astype("Int64")
df["col2"] = df["col2"].astype("string")
print(df)

判断缺失值

使用isna()方法判断pd.NA时，结果符合预期，返回True：

s = pd.Series([1, pd.NA, "test"], dtype="object")
print(s.isna())
# 输出
# 0    False
# 1     True
# 2    False
# dtype: bool

填充缺失值

使用fillna()方法可以对pd.NA进行填充，支持按标量、前向填充、后向填充等方式：

s = pd.Series([1, pd.NA, 3, pd.NA], dtype="Int64")
# 标量填充
print(s.fillna(0))
# 前向填充
print(s.fillna(method="ffill"))
# 后向填充
print(s.fillna(method="bfill"))

缺失值运算特性

pd.NA的运算遵循缺失值传播规则，任何和pd.NA的运算结果仍然是pd.NA，符合数据处理的逻辑：

s = pd.Series([1, pd.NA, 3], dtype="Int64")
# 加法运算，pd.NA参与运算结果仍为pd.NA
print(s + 2)
# 比较运算，pd.NA比较结果仍为pd.NA
print(s > 1)

注意事项

pd.NA-aware类型的性能略低于传统numpy-backed类型，如果数据确定没有缺失值，可优先使用传统类型提升处理效率。
在和其他库交互时，比如转换为numpy数组，pd.NA会被转换为NaN，需要注意下游库的兼容性。
字符串类型的pd.NA-aware类型是string，不是str，使用时要区分大小写。

pandas pd.NA pd.NA-aware 缺失值处理数据清洗修改时间：2026-06-16 20:24:36

免责声明：已尽一切努力确保本网站所含信息的准确性。网站内容多为原创整理与精心编撰，观点力求客观中立。本站旨在免费分享，内容仅供个人学习、研究或参考使用。若引用了第三方作品，版权归原作者所有。如内容涉及您的权益，请联系我们处理。