XML作为常用的数据交换格式,对文档内容的语法有严格要求,其中部分特殊字符属于XML的语法保留字符,如果直接在文档内容中书写,会导致解析器无法正确识别文档结构,进而抛出解析错误。常见的需要处理的特殊字符包括小于号、大于号、和号、单引号和双引号。

XML中需要处理的特殊字符
XML预定义了5个特殊字符,这些字符在XML中有特定的语法含义,不能直接作为普通文本内容出现,具体对应关系如下:
| 特殊字符 | 转义后字符 | 说明 |
|---|---|---|
| < | < | 小于号,XML标签的起始符号 |
| > | > | 大于号,XML标签的结束符号 |
| & | & | 和号,转义字符的起始符号 |
| ' | ' | 单引号,属性值的包裹符号 |
| " | " | 双引号,属性值的包裹符号 |
使用转义字符处理特殊字符
如果XML内容中包含少量特殊字符,最直接的方式就是使用对应的转义字符替换原字符,这样解析器会把转义后的内容识别为普通文本,不会触发语法错误。
下面是一个包含特殊字符的XML文档示例,我们先展示错误的写法,再展示正确的转义写法:
错误示例
<?xml version="1.0" encoding="UTF-8"?>
<user>
<name>张三&李四</name>
<desc>年龄<18岁</desc>
</user>
上面的文档中,name节点的内容包含未转义的&,desc节点的内容包含未转义的<,解析时都会报错。
正确转义示例
<?xml version="1.0" encoding="UTF-8"?>
<user>
<name>张三&李四</name>
<desc>年龄<18岁</desc>
<info attr="他说"你好"">内容</info>
</user>
使用Python的xml.etree.ElementTree模块解析上面正确转义的文档,可以正常获取内容:
import xml.etree.ElementTree as ET
# 解析XML内容
xml_content = '''<?xml version="1.0" encoding="UTF-8"?>
<user>
<name>张三&李四</name>
<desc>年龄<18岁</desc>
<info attr="他说"你好"">内容</info>
</user>'''
root = ET.fromstring(xml_content)
print(root.find('name').text) # 输出:张三&李四
print(root.find('desc').text) # 输出:年龄<18岁
print(root.find('info').get('attr')) # 输出:他说"你好"
使用CDATA段处理大量特殊字符
如果XML节点的内容中包含大量特殊字符,逐个转义会非常繁琐,此时可以使用CDATA段来包裹内容。CDATA段中的内容会被解析器视为纯文本,不会进行任何语法解析,因此可以直接写入特殊字符。
CDATA段的语法格式为<![CDATA[ 内容 ]]>,需要注意的是CDATA段不能嵌套,内部也不能出现]]>字符串。
下面是使用CDATA段的XML示例:
<?xml version="1.0" encoding="UTF-8"?>
<article>
<title>XML特殊字符处理</title>
<content><![CDATA[
这里可以直接写特殊字符:< > & " '
不需要做任何转义处理,解析器会把这部分内容全部当作普通文本。
比如可以写:if (a < b && b > c) { return true; }
]]></content>
</article>
同样使用Python解析上面的文档,获取CDATA段中的内容:
import xml.etree.ElementTree as ET
xml_content = '''<?xml version="1.0" encoding="UTF-8"?>
<article>
<title>XML特殊字符处理</title>
<content><![CDATA[
这里可以直接写特殊字符:< > & " '
不需要做任何转义处理,解析器会把这部分内容全部当作普通文本。
比如可以写:if (a < b && b > c) { return true; }
]]></content>
</article>'''
root = ET.fromstring(xml_content)
content_text = root.find('content').text
print(content_text)
# 输出会包含CDATA段内的所有原始内容,包括换行和特殊字符
两种处理方式的适用场景
- 转义字符适合处理内容中特殊字符数量较少的场景,转义后的文档可读性更好,符合XML的标准语法规范。
- CDATA段适合处理包含大量特殊字符的内容,比如代码片段、公式、包含很多符号的文本,能减少转义的工作量,避免转义错误。
在实际开发中,可以根据内容的特点选择合适的处理方式,只要保证XML文档符合语法规范,就能被解析器正常解析,获取到正确的内容。