XML文档类型声明是XML规范中定义的一种语法结构,用于为XML文档指定对应的文档类型定义,从而明确文档中允许出现的元素、属性、实体等内容规则,是XML文档合法性校验的重要依据。

XML文档类型声明的基本语法
XML文档类型声明的标准语法格式如下,它必须出现在XML声明之后,根元素之前:
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE 根元素名称 [
<!-- 内部DTD定义内容 -->
]>
<根元素名称>
<!-- 文档内容 -->
</根元素名称>
其中<!DOCTYPE>是文档类型声明的固定标识,根元素名称需要和XML文档的实际根元素完全一致,方括号内可以放置内部的DTD定义内容,也可以引用外部的DTD文件。
XML文档类型声明的两种引用方式
内部DTD引用
内部DTD是将DTD规则直接写在XML文档的文档类型声明内部,适合规则简单、仅在当前文档使用的场景,示例代码如下:
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE user [
<!ELEMENT user (name, age)>
<!ELEMENT name (#PCDATA)>
<!ELEMENT age (#PCDATA)>
<!ATTLIST user id CDATA #REQUIRED>
]>
<user id="1001">
<name>张三</name>
<age>25</age>
</user>
上述代码中定义了user根元素下必须包含name和age子元素,name和age的内容为文本类型,同时user元素必须包含id属性。
外部DTD引用
外部DTD是将规则定义放在独立的.dtd文件中,通过SYSTEM或者PUBLIC关键字引用,适合多个XML文档共用同一套规则的场景。如果是自定义DTD使用SYSTEM引用,示例代码如下:
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE user SYSTEM "user.dtd">
<user id="1002">
<name>李四</name>
<age>28</age>
</user>
对应的user.dtd文件内容如下:
<!ELEMENT user (name, age)> <!ELEMENT name (#PCDATA)> <!ELEMENT age (#PCDATA)> <!ATTLIST user id CDATA #REQUIRED>
如果是引用公共的标准DTD,则使用PUBLIC关键字,格式为<!DOCTYPE 根元素名称 PUBLIC "公共标识符" "系统标识符">,比如引用XHTML的DTD:
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN" "http://www.ipipp.com/TR/xhtml1/DTD/xhtml1-strict.dtd">
XML文档类型声明的核心作用
- 结构校验:解析器会根据文档类型声明关联的DTD规则,校验XML文档的元素嵌套、属性定义、实体使用是否符合规范,不符合的文档会被判定为无效。
- 实体定义:可以在文档类型声明中定义实体,比如<!ENTITY copyright "版权所有">,之后在文档中通过©right;引用该实体内容,减少重复内容编写。
- 明确文档规范:通过DTD规则明确文档的结构要求,方便多个开发者按照统一规范编写XML文档,提升协作效率。
使用注意事项
首先,XML文档类型声明不是必须的,如果不需要校验文档结构,也可以不写。其次,当XML解析器开启校验模式时,如果文档类型声明引用的DTD文件无法访问,可能会导致解析失败。另外,现在也有部分场景使用XML Schema替代DTD,因为XML Schema支持更多的数据类型和更灵活的规则定义,但文档类型声明仍然是XML规范中重要的基础内容,很多遗留系统仍然在使用。
在编写文档类型声明时,要注意根元素名称必须和XML文档的实际根元素完全匹配,DTD规则中的语法也要符合规范,否则会导致解析错误。如果遇到解析报错,可以先检查文档类型声明的语法和引用的DTD内容是否正确。