XML全称为可扩展标记语言,是一种用于标记电子文件使其具有结构性的标记语言,它设计的初衷是传输和存储数据,而不是像HTML那样用于展示数据。和HTML预定义标签不同,XML的标签可以由开发者自行定义,这也让它在不同系统之间的数据交换场景中非常实用。

XML和HTML的核心区别
很多新手容易把XML和HTML混淆,其实两者的设计目标和规则有明显差异,我们可以通过下面的表格快速区分:
| 对比维度 | XML | HTML |
|---|---|---|
| 设计目标 | 传输和存储数据,关注数据的内容和结构 | 展示数据,关注数据的外观和布局 |
| 标签规则 | 标签可自定义,无预定义标签 | 标签是预定义的,只能使用标准标签 |
| 语法严格度 | 语法要求严格,标签必须正确闭合,大小写敏感 | 语法相对宽松,部分标签可以不闭合,大小写不敏感 |
| 空格处理 | 会保留所有空格 | 会合并连续的空格为一个 |
XML文档的基础结构
一个格式正确的XML文档需要遵循固定的结构规则,下面是最基础的XML文档示例:
<?xml version="1.0" encoding="UTF-8"?>
<!-- 这是XML声明,指定版本和编码 -->
<student_list>
<student id="1">
<name>张三</name>
<age>20</age>
<major>计算机科学</major>
</student>
<student id="2">
<name>李四</name>
<age>21</age>
<major>软件工程</major>
</student>
</student_list>这个示例里包含了XML的几个核心组成部分:
- XML声明:文档开头的第一行,声明XML的版本和使用的编码,不是必须的但建议添加。
- 根元素:整个文档只能有一个根元素,上面的示例中
<student_list>就是根元素,所有其他内容都包含在根元素内部。 - 子元素:根元素内部可以包含多个子元素,子元素也可以继续嵌套子元素,需要正确闭合。
- 属性:元素可以包含属性,比如上面
<student>元素的id属性,属性值需要用双引号包裹。 - 注释:用
<!-- 注释内容 -->的格式添加,不会被执行。
XML的语法规则
XML的语法要求比HTML严格很多,新手入门需要牢记以下几个规则:
- 所有元素都必须有开始标签和结束标签,比如
<name>必须有对应的</name>,空标签可以写成<tag/>的形式。 - 标签名区分大小写,
<Name>和<name>是两个不同的标签。 - 标签必须正确嵌套,不能交叉嵌套,比如
<a><b></a></b>是错误的,正确的写法是<a><b></b></a>。 - 属性值必须用引号包裹,单引号或者双引号都可以,但同一个文档内建议统一风格。
- XML文档中如果包含特殊字符,比如
<、>、&,需要用实体引用代替,常见的实体引用有:<代表<,>代表>,&代表&。
XML的常见应用场景
虽然现在JSON在数据交换场景中越来越流行,但XML依然在很多领域有广泛应用:
- 配置文件:很多软件的配置文件都使用XML格式,比如Java项目的Maven配置文件
pom.xml,Spring框架的配置文件等。 - 数据交换:不同平台、不同语言之间的数据传输,尤其是一些传统系统,依然会使用XML作为数据交换格式。
- Web服务:早期的SOAP协议就是基于XML格式传输数据的,现在部分遗留系统还在使用。
- 文档存储:比如RSS订阅文件、部分办公软件的文档格式(早期的Office文档)都是基于XML的。
XML的验证方式
为了保证XML文档的结构符合预期,我们可以使用DTD或者XML Schema来验证文档的合法性:
- DTD:文档类型定义,是最早的XML验证方式,用来定义XML文档的结构,比如允许哪些元素、元素的顺序、元素可以有哪些属性等。不过DTD的功能比较有限,不支持数据类型的定义。
- XML Schema:也叫XSD,是DTD的替代方案,支持更丰富的数据类型定义,语法也是XML格式,比DTD更灵活强大,现在更推荐使用XSD来验证XML文档。
下面是一个简单的DTD示例,用来验证我们前面的学生列表XML:
<!ELEMENT student_list (student+)> <!ELEMENT student (name,age,major)> <!ATTLIST student id CDATA #REQUIRED> <!ELEMENT name (#PCDATA)> <!ELEMENT age (#PCDATA)> <!ELEMENT major (#PCDATA)>
这段DTD定义了student_list下至少有一个student元素,student元素必须包含name、age、major三个子元素,且student必须有id属性,三个子元素的内容都是文本类型。
简单的XML解析示例
在实际开发中,我们常常需要读取XML文档的内容,下面用Python的xml.etree.ElementTree模块来解析前面的学生列表XML:
import xml.etree.ElementTree as ET
# 解析XML字符串,也可以解析本地文件,使用ET.parse("文件路径")
xml_str = """<?xml version="1.0" encoding="UTF-8"?>
<student_list>
<student id="1">
<name>张三</name>
<age>20</age>
<major>计算机科学</major>
</student>
<student id="2">
<name>李四</name>
<age>21</age>
<major>软件工程</major>
</student>
</student_list>"""
# 解析XML
root = ET.fromstring(xml_str)
# 遍历所有student元素
for student in root.findall("student"):
student_id = student.get("id") # 获取id属性
name = student.find("name").text # 获取name子元素的文本
age = student.find("age").text
major = student.find("major").text
print(f"学生ID:{student_id},姓名:{name},年龄:{age},专业:{major}")运行上面的代码,就可以输出所有学生的信息,这是XML解析的基础用法,不同编程语言的XML解析逻辑类似,都是先加载文档,再通过标签名或者路径查找对应的元素,获取属性或者文本内容。