什么是XML？新手入门需要掌握哪些基础知识点

来源：IPIPP.com作者：陈平安头衔：全栈工程师

导读：本期聚焦于小伙伴创作的《什么是XML？新手入门需要掌握哪些基础知识点》，敬请观看详情，探索知识的价值。以下视频、文章将为您系统阐述其核心内容与价值。如果您觉得《什么是XML？新手入门需要掌握哪些基础知识点》有用，将其分享出去将是对创作者最好的鼓励。

XML全称为可扩展标记语言，是一种用于标记电子文件使其具有结构性的标记语言，它设计的初衷是传输和存储数据，而不是像HTML那样用于展示数据。和HTML预定义标签不同，XML的标签可以由开发者自行定义，这也让它在不同系统之间的数据交换场景中非常实用。

XML和HTML的核心区别

很多新手容易把XML和HTML混淆，其实两者的设计目标和规则有明显差异，我们可以通过下面的表格快速区分：

对比维度	XML	HTML
设计目标	传输和存储数据，关注数据的内容和结构	展示数据，关注数据的外观和布局
标签规则	标签可自定义，无预定义标签	标签是预定义的，只能使用标准标签
语法严格度	语法要求严格，标签必须正确闭合，大小写敏感	语法相对宽松，部分标签可以不闭合，大小写不敏感
空格处理	会保留所有空格	会合并连续的空格为一个

XML文档的基础结构

一个格式正确的XML文档需要遵循固定的结构规则，下面是最基础的XML文档示例：

<?xml version="1.0" encoding="UTF-8"?>
<!-- 这是XML声明，指定版本和编码 -->
<student_list>
  <student id="1">
    <name>张三</name>
    <age>20</age>
    <major>计算机科学</major>
  </student>
  <student id="2">
    <name>李四</name>
    <age>21</age>
    <major>软件工程</major>
  </student>
</student_list>

这个示例里包含了XML的几个核心组成部分：

XML声明：文档开头的第一行，声明XML的版本和使用的编码，不是必须的但建议添加。
根元素：整个文档只能有一个根元素，上面的示例中<student_list>就是根元素，所有其他内容都包含在根元素内部。
子元素：根元素内部可以包含多个子元素，子元素也可以继续嵌套子元素，需要正确闭合。
属性：元素可以包含属性，比如上面<student>元素的id属性，属性值需要用双引号包裹。
注释：用的格式添加，不会被执行。

XML的语法规则

XML的语法要求比HTML严格很多，新手入门需要牢记以下几个规则：

所有元素都必须有开始标签和结束标签，比如<name>必须有对应的</name>，空标签可以写成<tag/>的形式。
标签名区分大小写，<Name>和<name>是两个不同的标签。
标签必须正确嵌套，不能交叉嵌套，比如<a><b></a></b>是错误的，正确的写法是<a><b></b></a>。
属性值必须用引号包裹，单引号或者双引号都可以，但同一个文档内建议统一风格。
XML文档中如果包含特殊字符，比如<、>、&，需要用实体引用代替，常见的实体引用有：<代表<，>代表>，&代表&。

XML的常见应用场景

虽然现在JSON在数据交换场景中越来越流行，但XML依然在很多领域有广泛应用：

配置文件：很多软件的配置文件都使用XML格式，比如Java项目的Maven配置文件pom.xml，Spring框架的配置文件等。
数据交换：不同平台、不同语言之间的数据传输，尤其是一些传统系统，依然会使用XML作为数据交换格式。
Web服务：早期的SOAP协议就是基于XML格式传输数据的，现在部分遗留系统还在使用。
文档存储：比如RSS订阅文件、部分办公软件的文档格式（早期的Office文档）都是基于XML的。

XML的验证方式

为了保证XML文档的结构符合预期，我们可以使用DTD或者XML Schema来验证文档的合法性：

DTD：文档类型定义，是最早的XML验证方式，用来定义XML文档的结构，比如允许哪些元素、元素的顺序、元素可以有哪些属性等。不过DTD的功能比较有限，不支持数据类型的定义。
XML Schema：也叫XSD，是DTD的替代方案，支持更丰富的数据类型定义，语法也是XML格式，比DTD更灵活强大，现在更推荐使用XSD来验证XML文档。

下面是一个简单的DTD示例，用来验证我们前面的学生列表XML：

<!ELEMENT student_list (student+)>
<!ELEMENT student (name,age,major)>
<!ATTLIST student id CDATA #REQUIRED>
<!ELEMENT name (#PCDATA)>
<!ELEMENT age (#PCDATA)>
<!ELEMENT major (#PCDATA)>

这段DTD定义了student_list下至少有一个student元素，student元素必须包含name、age、major三个子元素，且student必须有id属性，三个子元素的内容都是文本类型。

简单的XML解析示例

在实际开发中，我们常常需要读取XML文档的内容，下面用Python的xml.etree.ElementTree模块来解析前面的学生列表XML：

import xml.etree.ElementTree as ET

# 解析XML字符串，也可以解析本地文件，使用ET.parse("文件路径")
xml_str = """<?xml version="1.0" encoding="UTF-8"?>
<student_list>
  <student id="1">
    <name>张三</name>
    <age>20</age>
    <major>计算机科学</major>
  </student>
  <student id="2">
    <name>李四</name>
    <age>21</age>
    <major>软件工程</major>
  </student>
</student_list>"""

# 解析XML
root = ET.fromstring(xml_str)

# 遍历所有student元素
for student in root.findall("student"):
    student_id = student.get("id")  # 获取id属性
    name = student.find("name").text  # 获取name子元素的文本
    age = student.find("age").text
    major = student.find("major").text
    print(f"学生ID：{student_id}，姓名：{name}，年龄：{age}，专业：{major}")

运行上面的代码，就可以输出所有学生的信息，这是XML解析的基础用法，不同编程语言的XML解析逻辑类似，都是先加载文档，再通过标签名或者路径查找对应的元素，获取属性或者文本内容。

XML 可扩展标记语言文档结构 DTD XML解析修改时间：2026-06-04 03:43:11

免责声明：已尽一切努力确保本网站所含信息的准确性。网站内容多为原创整理与精心编撰，观点力求客观中立。本站旨在免费分享，内容仅供个人学习、研究或参考使用。若引用了第三方作品，版权归原作者所有。如内容涉及您的权益，请联系我们处理。