XML命名空间是为了避免不同XML文档中元素或属性名称冲突而设计的机制,通过唯一的命名空间URI来标识一组名称。当XML文档中引入命名空间后,直接使用普通的元素名编写XPath表达式就无法匹配到目标节点,需要采用专门的选取方式。

XML命名空间的基本形式
带有命名空间的XML文档通常会在根元素或子元素上声明命名空间,常见的声明方式有两种,一种是默认命名空间,另一种是指定前缀的命名空间。以下是一个包含两种命名空间声明的XML示例:
<?xml version="1.0" encoding="UTF-8"?>
<root xmlns="http://www.ippipp.com/default" xmlns:app="http://www.ippipp.com/app">
<item>默认命名空间下的节点</item>
<app:user>
<app:name>测试用户</app:name>
<app:age>25</app:age>
</app:user>
</root>
上面的示例中,xmlns="http://www.ippipp.com/default"是默认命名空间,所有没有前缀的子元素都属于这个命名空间;xmlns:app="http://www.ippipp.com/app"是指定了前缀app的命名空间,带有app前缀的元素都属于该命名空间。
使用命名空间前缀选取节点
如果XML文档中使用了带前缀的命名空间,在XPath中可以通过注册命名空间前缀和对应URI的方式,直接使用前缀选取节点。这种方式适合命名空间前缀固定的场景。
以Python的lxml库为例,演示如何通过前缀选取节点:
from lxml import etree
# 解析上面的XML内容
xml_content = """<?xml version="1.0" encoding="UTF-8"?>
<root xmlns="http://www.ippipp.com/default" xmlns:app="http://www.ippipp.com/app">
<item>默认命名空间下的节点</item>
<app:user>
<app:name>测试用户</app:name>
<app:age>25</app:age>
</app:user>
</root>"""
tree = etree.fromstring(xml_content.encode())
# 注册命名空间前缀,key是前缀,value是命名空间URI
namespaces = {
"app": "http://www.ippipp.com/app",
"df": "http://www.ippipp.com/default"
}
# 选取app命名空间下的user节点的name子节点
name_node = tree.xpath("//app:name", namespaces=namespaces)
print(name_node[0].text) # 输出:测试用户
# 选取默认命名空间下的item节点,需要给默认命名空间也指定一个前缀
item_node = tree.xpath("//df:item", namespaces=namespaces)
print(item_node[0].text) # 输出:默认命名空间下的节点
需要注意的是,XPath中不能直接使用XML文档里声明的默认命名空间,必须给默认命名空间手动指定一个前缀,才能在表达式中使用。
使用local-name函数选取节点
如果XML文档的命名空间前缀不固定,或者不想手动注册命名空间,可以使用XPath的local-name()函数,该函数会返回节点的本地名称(不包含命名空间前缀的部分),从而忽略命名空间的影响。
同样以Python的lxml库为例,演示使用local-name函数选取节点:
from lxml import etree
xml_content = """<?xml version="1.0" encoding="UTF-8"?>
<root xmlns="http://www.ippipp.com/default" xmlns:app="http://www.ippipp.com/app">
<item>默认命名空间下的节点</item>
<app:user>
<app:name>测试用户</app:name>
<app:age>25</app:age>
</app:user>
</root>"""
tree = etree.fromstring(xml_content.encode())
# 选取所有本地名称为name的节点,不管属于哪个命名空间
name_nodes = tree.xpath("//*[local-name()='name']")
for node in name_nodes:
print(node.text) # 输出:测试用户
# 选取本地名称为item的节点
item_nodes = tree.xpath("//*[local-name()='item']")
print(item_nodes[0].text) # 输出:默认命名空间下的节点
这种方式的优势是不需要关心命名空间的具体URI和前缀,只要知道节点的本地名称就能匹配,适合命名空间结构不固定的场景。但如果XML中存在同名的本地节点属于不同命名空间,这种方式可能会匹配到不需要的节点,需要额外添加过滤条件。
两种方式的适用场景对比
可以通过以下表格快速判断两种选取方式的适用场景:
| 选取方式 | 适用场景 | 优势 | 不足 |
|---|---|---|---|
| 命名空间前缀方式 | 命名空间结构固定,前缀已知 | 匹配精准,不会误匹配同名节点 | 需要提前注册命名空间,处理默认命名空间较繁琐 |
| local-name函数方式 | 命名空间结构不固定,前缀未知 | 无需注册命名空间,使用简单 | 可能匹配到同名的其他命名空间节点,精准度低 |
注意事项
- 编写XPath表达式时,不要直接在表达式里写XML文档里的命名空间URI,XPath不支持直接使用URI作为命名空间标识,必须通过前缀映射。
- 如果XML文档中同一个本地名称的节点存在于多个命名空间,使用local-name函数时需要结合父节点等条件进一步过滤,避免匹配错误。
- 不同XPath解析库对命名空间的处理逻辑略有差异,实际使用时需要参考对应库的官方文档调整写法。