导读:本期聚焦于小伙伴创作的《pandas read_csv时如何强制某些列为nullable integer类型》,敬请观看详情,探索知识的价值。以下视频、文章将为您系统阐述其核心内容与价值。如果您觉得《pandas read_csv时如何强制某些列为nullable integer类型》有用,将其分享出去将是对创作者最好的鼓励。

在使用pandas读取CSV文件时,如果某一列是整数类型但存在缺失值,默认的int类型无法存储NaN,会导致该列被自动转换为float类型,这往往不符合数据处理的需求。此时需要在read_csv阶段就将该列指定为nullable integer类型,也就是pandas的Int64、Int32等可空整数类型,既保留整数属性,又能存储缺失值。

pandas read_csv时如何强制某些列为nullable integer类型

方法一:使用dtype参数直接指定

read_csv提供了dtype参数,可以直接指定每一列的数据类型,对于可空整数类型,直接传入对应的Int64等类型即可。需要注意的是,这里要使用的是pandas的可空整数类型,而不是Python内置的int。

import pandas as pd
import io

# 模拟CSV数据,age列存在缺失值
csv_data = """name,age,score
Alice,25,90
Bob,,85
Charlie,30,88
"""

# 使用dtype指定age列为可空整数类型Int64
df = pd.read_csv(io.StringIO(csv_data), dtype={"age": pd.Int64Dtype()})
print(df.dtypes)
print(df)

上述代码中,pd.Int64Dtype()表示64位可空整数类型,读取后age列的类型为Int64,缺失值会显示为<NA>而不是NaN,且列中存储的是整数。

方法二:使用converters参数自定义转换逻辑

如果需要在转换时做更多自定义处理,比如对异常值进行过滤或者补充默认值,可以使用converters参数,为指定列传入一个转换函数,函数内部将值转换为可空整数类型。

import pandas as pd
import io

csv_data = """name,age,score
Alice,25,90
Bob,,85
Charlie,30,88
"""

def convert_to_nullable_int(value):
    # 如果值为空,返回pd.NA
    if pd.isna(value) or value.strip() == "":
        return pd.NA
    # 转换为整数后返回可空整数类型
    return pd.Int64Dtype()(int(value))

df = pd.read_csv(io.StringIO(csv_data), converters={"age": convert_to_nullable_int})
print(df.dtypes)
print(df)

这种方式灵活性更高,可以在转换函数中加入额外的校验逻辑,比如过滤非数字的内容,再转换为可空整数类型。

方法三:结合usecols和后续转换(不推荐但适用特殊场景)

如果CSV的列数很多,且只需要对少数几列做可空整数转换,也可以先读取所有列,再对目标列做类型转换,但这种方式不是read_csv阶段直接完成,仅适用于无法在read_csv时指定类型的特殊场景。

import pandas as pd
import io

csv_data = """name,age,score
Alice,25,90
Bob,,85
Charlie,30,88
"""

df = pd.read_csv(io.StringIO(csv_data))
# 读取后转换age列为可空整数类型
df["age"] = df["age"].astype(pd.Int64Dtype())
print(df.dtypes)

注意事项

  • 可空整数类型的首字母是大写的I,比如Int64,和内置的int类型区分开,小写int是不可空的。
  • 如果CSV中该列存在非数字的字符串,直接指定dtype会报错,此时需要先使用converters做清洗再转换。
  • 可空整数类型的缺失值用pd.NA表示,和float列的NaN不同,后续做数值计算时需要注意兼容性。

pandasread_csvnullable_integer数据类型转换修改时间:2026-06-27 01:15:17

免责声明:​ 已尽一切努力确保本网站所含信息的准确性。网站内容多为原创整理与精心编撰,观点力求客观中立。本站旨在免费分享,内容仅供个人学习、研究或参考使用。若引用了第三方作品,版权归原作者所有。如内容涉及您的权益,请联系我们处理。
内容垂直聚焦
专注技术核心技术栏目,确保每篇文章深度聚焦于实用技能。从代码技巧到架构设计,为用户提供无干扰的纯技术知识沉淀,精准满足专业提升需求。
知识结构清晰
覆盖从开发到部署的全链路。AI、前端、编程、数据库、服务器、建站、系统层层递进,构建清晰学习路径,帮助用户系统化掌握开发与运维所需的核心技术。
深度技术解析
拒绝泛泛而谈,深入技术细节与实践难点。无论是数据库优化还是服务器配置,均结合真实场景与代码示例进行剖析,致力于提供可直接应用于工作的解决方案。
专业领域覆盖
精准对应开发生命周期。从前端界面到后端编程,从数据库操作到服务器运维,形成完整闭环,一站式满足全栈工程师和运维人员的技术需求。
即学即用高效
内容强调实操性,步骤清晰、代码完整。用户可根据教程直接复现和应用于自身项目,显著缩短从学习到实践的距离,快速解决开发中的具体问题。
持续更新保障
专注既定技术方向进行长期、稳定的内容输出。确保各栏目技术文章持续更新迭代,紧跟主流技术发展趋势,为用户提供经久不衰的学习价值。