XML文档中的空白字符包含空格、制表符、换行符等不可见字符,这些字符在不同场景下会被解析器以不同的规则处理,处理不当很容易引发数据解析错误或者显示异常。
XML空白字符的基本分类
XML中的空白字符主要分为两类,一类是有意义空白字符,也就是文档内容中需要保留的空白,比如代码块里的缩进、诗歌中的换行;另一类是无意义空白字符,通常是文档格式化时添加的缩进、换行,用于提升文档可读性,本身不属于内容的一部分。
元素内容中的空白字符处理
对于元素内容中的空白字符,解析器的默认处理行为分为两种:
- 如果XML文档没有关联DTD或者Schema,大部分解析器会保留所有空白字符,将其作为文本节点的一部分。
- 如果文档关联了DTD或者Schema,并且DTD/Schema中声明了元素的内容类型为
#PCDATA,解析器会默认保留空白字符;如果元素内容被声明为其他类型(比如只包含子元素),解析器会忽略元素之间、子元素前后的无意义空白字符。
我们可以通过xml:space属性来显式指定空白字符的处理规则,该属性有两个可选值:
default:使用解析器的默认处理规则,忽略无意义空白字符。preserve:强制保留所有空白字符,不做任何裁剪。
示例XML文档如下:
<?xml version="1.0" encoding="UTF-8"?>
<root>
<code xml:space="preserve">
function test() {
console.log("hello");
}
</code>
<content>这是一段普通内容</content>
</root>
上述示例中,code元素设置了xml:space="preserve",内部的换行和缩进空白会被完整保留;而content元素没有设置该属性,内部的空白字符如果属于无意义缩进,可能会被解析器忽略。
属性值中的空白字符处理
XML规范对属性值中的空白字符有明确的处理规则:解析器会自动将属性值中的换行符、制表符转换为空格,并且会合并连续的多个空格为一个空格,同时会去掉属性值开头和结尾的空格。
比如下面的属性定义:
<user name=" 张三 李四 " age=" 20 "></user>
解析后name属性的实际值为张三 李四,age属性的实际值为20,开头的空格、结尾的空格以及中间的连续空格都被处理过了。
不同解析场景的处理差异
在使用不同编程语言解析XML时,空白字符的处理也会有一些差异,下面以Python的xml.etree.ElementTree模块为例说明:
默认情况下,该模块解析XML时会保留所有文本节点,包括空白字符组成的文本节点,我们可以通过自定义解析器来忽略无意义的空白字符:
import xml.etree.ElementTree as ET
# 自定义解析器,忽略无意义的空白字符
parser = ET.XMLParser(encoding="utf-8")
# 解析时去除空白文本节点
parser.parser.UseForeignDTD(True)
parser.entity["nbsp"] = "u00A0"
xml_content = """<?xml version="1.0" encoding="UTF-8"?>
<root>
<item>内容1</item>
<item>内容2</item>
</root>"""
root = ET.fromstring(xml_content, parser=parser)
for child in root:
print(child.text) # 输出内容1、内容2,不会包含空白文本节点
空白字符处理的注意事项
- 如果XML文档需要保留格式(比如代码片段、预格式化文本),一定要给对应元素添加
xml:space="preserve"属性,避免空白字符被裁剪。 - 不要在属性值中依赖空白字符的格式,因为属性值的空白字符一定会被规范化处理,无法保留原始格式。
- 如果解析后的XML需要重新生成文档,要注意空白字符的保留规则,避免重新生成的文档格式混乱或者内容丢失。
XML规范中对空白字符的处理有明确的定义,开发者在处理XML文档时,需要根据实际业务场景选择合适的处理策略,避免因为空白字符的问题导致业务逻辑异常。