XML解析的序言部分是XML文档最开头的一段内容,用于向解析器提供文档的基础元信息,帮助解析器正确识别和处理后续的XML内容。这部分内容不属于XML文档的实际数据内容,但却是解析器正常工作的必要前提。

XML序言的核心组成
XML序言主要包含两部分内容,分别是必须的XML声明和可选的文档类型定义(DTD),其中XML声明是序言中不可或缺的部分,所有规范的XML文档都需要包含XML声明。
- XML声明:用于说明XML的版本、文档使用的字符编码,以及文档是否独立,是解析器识别文档的基础依据。
- 文档类型定义(DTD):可选部分,用于定义XML文档的元素、属性、实体等结构规则,解析器可以根据DTD验证文档的合法性。
XML声明的严格规则
XML声明有非常严格的语法要求,任何一处不符合规则都会导致解析器报错,具体规则如下:
1. 位置和格式规则
XML声明必须位于XML文档的最开头,前面不能有任何其他内容,包括空格、换行、注释等。声明的格式固定以<?xml开头,以?>结尾,中间的内容是声明的属性。
正确的XML声明示例:
<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
错误的示例,前面多了空格:
<?xml version="1.0" encoding="UTF-8"?>
2. 属性顺序规则
XML声明的属性有固定的顺序要求,必须按照version、encoding、standalone的顺序排列,不能随意调整顺序。
正确的顺序:
<?xml version="1.0" encoding="UTF-8" standalone="no"?>
错误的顺序,encoding在version前面:
<?xml encoding="UTF-8" version="1.0"?>
3. 版本属性规则
version属性是XML声明中必须存在的属性,用于指定XML的版本号,目前常用的版本是1.0,也有部分场景使用1.1版本,版本号必须用双引号包裹,且格式正确。
正确写法:
<?xml version="1.0"?>
错误写法,缺少version属性:
<?xml encoding="UTF-8"?>
4. 编码属性规则
encoding属性是可选属性,用于指定XML文档使用的字符编码,比如UTF-8、GBK等。如果指定了该属性,编码名称必须符合IANA的字符集名称规范,且必须用双引号包裹。如果没有指定encoding属性,解析器默认使用UTF-8编码解析文档。
正确写法:
<?xml version="1.0" encoding="GBK"?>
错误写法,编码名称格式错误:
<?xml version="1.0" encoding="utf8"?>
5. standalone属性规则
standalone属性是可选属性,用于说明XML文档是否独立于外部标记声明,取值只能是yes或者no,必须用双引号包裹。yes表示文档不依赖外部DTD,no表示文档可能依赖外部DTD。
正确写法:
<?xml version="1.0" standalone="yes"?>
错误写法,取值不是yes或no:
<?xml version="1.0" standalone="true"?>
6. 引号和空格规则
XML声明中所有属性的值都必须用双引号包裹,不能使用单引号。属性名和属性值之间必须有等号,等号前后不能有空格。多个属性之间可以用空格分隔,但空格数量没有严格限制,不过通常建议只用一个空格。
正确写法:
<?xml version="1.0" encoding="UTF-8"?>
错误写法,用了单引号:
<?xml version='1.0' encoding='UTF-8'?>
违反规则的常见解析错误
当XML声明的规则被违反时,不同的解析器会抛出不同的错误信息,常见的错误包括:
- 序言中不允许有内容:通常是XML声明前面有空格、换行或者其他字符导致。
- XML声明语法错误:通常是属性顺序错误、缺少必须的属性、属性值引号错误导致。
- 不支持的编码:通常是encoding属性指定的编码名称不符合规范,或者文档实际编码和声明的不一致导致。
总结
XML解析的序言部分是XML文档的头部元信息区域,核心的XML声明有严格的位置、属性顺序、属性取值、引号使用等规则。在编写XML文档时,严格遵循这些规则,就能避免大部分序言相关的解析错误,保障XML数据在不同系统之间的正常传输和解析。