在Python处理结构化数据的场景中,XML是常见的一种数据格式,但原生操作XML的库使用起来相对繁琐,将XML转换为字典后,我们可以更方便地通过键值对的方式访问数据。xmltodict库就是专门用于实现XML和有序字典相互转换的工具,使用简单且效率较高。

xmltodict库的安装
xmltodict是第三方库,需要通过包管理工具安装,使用pip命令即可完成安装,执行以下命令:
# 安装xmltodict库 pip install xmltodict
基本转换用法
XML转字典
使用xmltodict的parse方法可以将XML字符串转换为字典,以下是一个简单的示例:
import xmltodict
# 定义XML字符串
xml_str = '''<?xml version="1.0" encoding="utf-8"?>
<user>
<name>张三</name>
<age>25</age>
<city>北京</city>
</user>'''
# 将XML转换为字典
result_dict = xmltodict.parse(xml_str)
print(result_dict)
# 输出:{'user': {'name': '张三', 'age': '25', 'city': '北京'}}
# 访问具体字段
print(result_dict['user']['name']) # 输出:张三
字典转XML
如果需要将字典转换回XML格式,可以使用xmltodict的unparse方法,示例如下:
import xmltodict
# 定义字典数据
data_dict = {
'book': {
'title': 'Python编程入门',
'author': '李四',
'price': '59.9'
}
}
# 将字典转换为XML
xml_result = xmltodict.unparse(data_dict, pretty=True)
print(xml_result)
处理复杂XML结构
带属性的XML转换
XML标签经常带有属性,xmltodict会将属性转换为字典中以@开头的键,示例如下:
import xmltodict
xml_with_attr = '''<product id="1001" category="电子">
<name>无线耳机</name>
<price>299</price>
</product>'''
result = xmltodict.parse(xml_with_attr)
print(result)
# 输出:{'product': {'@id': '1001', '@category': '电子', 'name': '无线耳机', 'price': '299'}}
处理重复嵌套标签
当XML中存在多个同名的子标签时,xmltodict会将其转换为列表,方便批量处理:
import xmltodict
xml_with_list = '''<students>
<student>
<name>王五</name>
<score>90</score>
</student>
<student>
<name>赵六</name>
<score>88</score>
</student>
</students>'''
result = xmltodict.parse(xml_with_list)
# 此时student键对应的值是列表
students = result['students']['student']
for student in students:
print(f"姓名:{student['name']},分数:{student['score']}")
常用参数说明
xmltodict的parse方法还有一些常用参数可以调整转换行为,以下是几个常用的参数:
- dict_constructor:指定转换后使用的字典类型,默认是OrderedDict,也可以指定为dict
- force_list:指定哪些标签的值需要强制转换为列表,即使只有一个该标签
- attr_prefix:自定义属性键的前缀,默认是@
以下是一个使用force_list参数的示例:
import xmltodict
xml_data = '''<root>
<item>第一个</item>
</root>'''
# 不强制列表时,item是字符串
result1 = xmltodict.parse(xml_data)
print(type(result1['root']['item'])) # 输出:<class 'str'>
# 强制item为列表
result2 = xmltodict.parse(xml_data, force_list=('item',))
print(type(result2['root']['item'])) # 输出:<class 'list'>
注意事项
在使用xmltodict时需要注意,转换后的字典中所有的文本值默认都是字符串类型,如果需要数值类型需要手动转换。另外如果XML结构非常庞大,一次性转换可能会占用较多内存,此时可以考虑结合流式解析的方式处理,但xmltodict本身更适用于中小型XML文档的快速转换场景。