Python怎么把XML转换成DataFrame Pandas读取XML教程

来源:网站建设作者:IT柏拉图头衔:草根站长
导读:本期聚焦于小伙伴创作的《Python怎么把XML转换成DataFrame Pandas读取XML教程》,敬请观看详情,探索知识的价值。以下视频、文章将为您系统阐述其核心内容与价值。如果您觉得《Python怎么把XML转换成DataFrame Pandas读取XML教程》有用,将其分享出去将是对创作者最好的鼓励。

XML是一种常用的数据交换格式,在接口返回、配置文件、数据导出场景中经常出现,而Pandas的DataFrame是Python数据处理的核心结构,把XML转换成DataFrame是使用Pandas处理XML数据的基础操作。

基础方法:使用Pandas内置read_xml方法

Pandas从1.3.0版本开始提供了read_xml方法,可以直接读取XML文件并转换为DataFrame,适合结构规整的XML数据。首先确保你安装的Pandas版本符合要求,若版本过低可以通过pip install --upgrade pandas升级。

假设我们有一个名为data.xml的文件,内容如下:

<?xml version="1.0" encoding="UTF-8"?>
<users>
    <user>
        <id>1</id>
        <name>张三</name>
        <age>25</age>
    </user>
    <user>
        <id>2</id>
        <name>李四</name>
        <age>28</age>
    </user>
</users>

使用read_xml读取该文件的代码如下:

import pandas as pd

# 读取XML文件,指定xpath路径匹配user节点
df = pd.read_xml("data.xml", xpath="//user")
print(df)

运行后会输出如下DataFrame结果:

   id name  age
0   1   张三   25
1   2   李四   28

这里的xpath参数用于指定要提取的XML节点路径,如果XML结构更复杂,需要调整xpath表达式匹配到对应的数据节点。

复杂XML解析:结合xml.etree.ElementTree手动转换

如果XML结构不规则,或者需要自定义解析逻辑,可以使用Python内置的xml.etree.ElementTree模块先解析XML,再将解析结果组装成DataFrame。

还是以上面的data.xml为例,手动解析的实现步骤如下:

import xml.etree.ElementTree as ET
import pandas as pd

# 解析XML文件
tree = ET.parse("data.xml")
root = tree.getroot()

# 存储解析后的数据
data_list = []

# 遍历所有user节点
for user in root.findall("user"):
    # 提取每个子节点的文本内容
    user_id = user.find("id").text
    user_name = user.find("name").text
    user_age = user.find("age").text
    # 将单条数据加入列表
    data_list.append({
        "id": user_id,
        "name": user_name,
        "age": user_age
    })

# 转换为DataFrame
df = pd.DataFrame(data_list)
print(df)

这种方式的优势是可以灵活处理嵌套结构、属性值等复杂场景,比如如果XML的user节点带有属性,我们可以同时提取属性值:

<?xml version="1.0" encoding="UTF-8"?>
<users>
    <user status="active">
        <id>1</id>
        <name>张三</name>
        <age>25</age>
    </user>
    <user status="inactive">
        <id>2</id>
        <name>李四</name>
        <age>28</age>
    </user>
</users>

提取属性的代码调整如下:

import xml.etree.ElementTree as ET
import pandas as pd

tree = ET.parse("data.xml")
root = tree.getroot()

data_list = []

for user in root.findall("user"):
    # 提取节点属性
    status = user.get("status")
    user_id = user.find("id").text
    user_name = user.find("name").text
    user_age = user.find("age").text
    data_list.append({
        "status": status,
        "id": user_id,
        "name": user_name,
        "age": user_age
    })

df = pd.DataFrame(data_list)
print(df)

两种方法的适用场景对比

我们可以通过下面的表格快速判断该选择哪种方法:

方法适用场景优势劣势
Pandas read_xml结构规整、简单的XML数据代码简洁,一行即可完成转换复杂结构支持有限,依赖Pandas版本
ElementTree手动解析嵌套复杂、带属性、不规则XML数据灵活度高,可自定义解析逻辑代码量更多,需要手动处理节点遍历

常见问题说明

在使用read_xml方法时,如果遇到编码问题,可以在读取时指定编码参数:

df = pd.read_xml("data.xml", xpath="//user", encoding="utf-8")

如果XML数据不是文件而是字符串形式,可以直接传入字符串解析:

xml_str = """<?xml version="1.0" encoding="UTF-8"?>
<users>
    <user>
        <id>1</id>
        <name>张三</name>
        <age>25</age>
    </user>
</users>"""

df = pd.read_xml(xml_str, xpath="//user")
print(df)

手动解析时如果节点可能不存在,建议先判断节点是否为空,避免出现AttributeError

age_node = user.find("age")
user_age = age_node.text if age_node is not None else None

PythonXMLDataFramePandasXML_to_DataFrame修改时间:2026-06-19 00:45:42

免责声明:​ 已尽一切努力确保本网站所含信息的准确性。网站内容多为原创整理与精心编撰,观点力求客观中立。本站旨在免费分享,内容仅供个人学习、研究或参考使用。若引用了第三方作品,版权归原作者所有。如内容涉及您的权益,请联系我们处理。
内容垂直聚焦
专注技术核心技术栏目,确保每篇文章深度聚焦于实用技能。从代码技巧到架构设计,为用户提供无干扰的纯技术知识沉淀,精准满足专业提升需求。
知识结构清晰
覆盖从开发到部署的全链路。AI、前端、编程、数据库、服务器、建站、系统层层递进,构建清晰学习路径,帮助用户系统化掌握开发与运维所需的核心技术。
深度技术解析
拒绝泛泛而谈,深入技术细节与实践难点。无论是数据库优化还是服务器配置,均结合真实场景与代码示例进行剖析,致力于提供可直接应用于工作的解决方案。
专业领域覆盖
精准对应开发生命周期。从前端界面到后端编程,从数据库操作到服务器运维,形成完整闭环,一站式满足全栈工程师和运维人员的技术需求。
即学即用高效
内容强调实操性,步骤清晰、代码完整。用户可根据教程直接复现和应用于自身项目,显著缩短从学习到实践的距离,快速解决开发中的具体问题。
持续更新保障
专注既定技术方向进行长期、稳定的内容输出。确保各栏目技术文章持续更新迭代,紧跟主流技术发展趋势,为用户提供经久不衰的学习价值。