XML是可扩展标记语言(Extensible Markup Language)的缩写,它设计的初衷是传输和存储数据,和主要用于展示数据的HTML有本质区别。XML的标签没有被预定义,开发者可以根据需求自定义标签,这让它在数据交换、配置文件编写等场景中应用非常广泛。

XML和HTML的核心区别
很多新手容易混淆XML和HTML,两者虽然都是标记语言,但定位完全不同,具体差异可以通过下表直观了解:
| 对比维度 | XML | HTML |
|---|---|---|
| 核心作用 | 传输和存储数据 | 展示数据 |
| 标签定义 | 自定义标签,无预定义 | 预定义标签,固定不可改 |
| 语法严格度 | 语法严格,错误会导致解析失败 | 语法宽松,部分错误可兼容 |
XML基础语法规则
XML的语法要求非常严格,只有符合规则的文档才能被正确解析,核心规则如下:
- XML文档必须有且仅有一个根元素,所有其他元素都包含在根元素内部
- 标签必须成对出现,有开始标签就必须有对应的结束标签,空标签可以写成<tag/>的形式
- 标签区分大小写,<User>和<user>是两个不同的标签
- 属性值必须用引号包裹,单引号双引号都可以
- 特殊字符需要转义,比如<转义为<,>转义为>,&转义为&
第一个XML示例
下面是一个符合语法规范的简单XML文档,用来存储用户基本信息:
<?xml version="1.0" encoding="UTF-8"?>
<users>
<user id="1">
<name>张三</name>
<age>25</age>
<email>zhangsan@ipipp.com</email>
</user>
<user id="2">
<name>李四</name>
<age>28</age>
<email>lisi@ipipp.com</email>
</user>
</users>这个文档中,<users>是根元素,包含两个<user>子元素,每个子元素都有id属性,内部还有<name>、<age>、<email>三个子元素存储具体信息。
XML的约束:DTD
自定义标签虽然灵活,但如果没有约束,不同开发者写的XML结构可能差异很大,不利于数据交互。DTD(文档类型定义)就是用来约束XML文档结构的,它可以规定根元素是什么、子元素有哪些、属性的类型和是否必填等。
给上面的用户XML添加DTD约束的示例如下:
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE users [
<!ELEMENT users (user+)>
<!ELEMENT user (name,age,email)>
<!ATTLIST user id CDATA #REQUIRED>
<!ELEMENT name (#PCDATA)>
<!ELEMENT age (#PCDATA)>
<!ELEMENT email (#PCDATA)>
]>
<users>
<user id="1">
<name>张三</name>
<age>25</age>
<email>zhangsan@ipipp.com</email>
</user>
</users>这里的DTD定义了users根元素下至少有一个user元素,user元素必须包含name、age、email三个子元素,且user必须有id属性,子元素的内容都是文本类型。
常见的XML解析方式
写好XML之后,我们需要在程序中读取里面的数据,常见的解析方式有两种:
- DOM解析:把整个XML文档加载到内存中,形成树形结构,方便随机访问和修改,但文档过大时容易占用过多内存
- SAX解析:基于事件驱动,逐行读取XML文档,内存占用小,适合处理大文档,但只能顺序读取,不能修改内容
如果用Python的xml.dom.minidom模块解析上面的用户XML,获取所有用户姓名的代码示例如下:
import xml.dom.minidom
# 加载XML文档
dom = xml.dom.minidom.parse("users.xml")
# 获取根元素
root = dom.documentElement
# 获取所有user元素
users = root.getElementsByTagName("user")
# 遍历获取姓名
for user in users:
name = user.getElementsByTagName("name")[0].firstChild.data
print(name)掌握这些基础内容之后,就可以应对大部分XML相关的简单开发需求,后续还可以深入学习XML Schema、XPath等进阶知识,进一步提升XML的使用能力。