XPath的substring-after()函数主要用于从目标字符串中,截取指定分隔字符串之后的所有内容,在处理格式固定的文本数据时非常实用,比如提取URL中的路径部分、拆分带固定前缀的标识内容等。

substring-after()函数基本语法
该函数的基本语法格式如下:
substring-after(源字符串, 分隔字符串)
函数接收两个必填参数:第一个参数是要处理的原始字符串,第二个参数是作为截取分界点的分隔字符串。函数会返回源字符串中第一个出现的分隔字符串之后的所有字符,如果源字符串中不存在分隔字符串,则返回空字符串。
基础使用示例
假设我们有如下XML文档结构,需要提取书名中冒号之后的副标题部分:
<book>
<title>XPath实战: 从入门到精通</title>
<author>张三</author>
</book>
对应的XPath表达式和返回结果如下:
substring-after(/book/title, ": ")
上述表达式会返回从入门到精通,因为分隔字符串是: ,函数在源字符串XPath实战: 从入门到精通中找到第一个: 之后,截取了后续的所有内容。
不同场景的截取演示
场景1:提取URL中的路径部分
如果源字符串是完整的URL,需要提取域名之后的路径内容:
substring-after("https://ipipp.com/api/user/list", "ipipp.com")
返回结果为/api/user/list,分隔字符串匹配到第一个ipipp.com之后,截取了后续的所有字符。
场景2:分隔字符串不存在的情况
当源字符串中不存在指定的分隔字符串时,函数返回空字符串:
substring-after("hello world", "test")
上述表达式返回空字符串,因为hello world中不存在test这个分隔字符串。
场景3:分隔字符串多次出现的情况
函数只会匹配第一个出现的分隔字符串,截取第一次出现之后的内容:
substring-after("a-b-c-d", "-")
返回结果为b-c-d,而不是b,只会取第一个-之后的所有内容,不会重复匹配后续的分隔字符串。
结合节点使用的示例
在实际解析HTML或XML文档时,通常会结合节点路径使用该函数,比如解析如下HTML中的商品编号:
<div class="product">
<span class="id">商品编号: P202405001</span>
<span class="name">无线鼠标</span>
</div>
提取商品编号的XPath表达式如下:
substring-after(//span[@class="id"], "商品编号: ")
该表达式会先定位到class为id的span节点,获取其文本内容商品编号: P202405001,然后截取商品编号: 之后的内容,最终返回P202405001。
使用注意事项
- 分隔字符串的匹配是区分大小写的,比如
substring-after("Hello", "h")会返回空字符串,因为源字符串中的h是大写,分隔字符串是小写,无法匹配。 - 如果分隔字符串是空字符串,函数会返回整个源字符串,因为空字符串会匹配源字符串的开头位置。
- 当源字符串或分隔字符串是节点引用时,会自动获取节点的字符串值进行处理,不需要额外做类型转换。
与其他字符串函数对比
XPath中还有substring-before()函数,和substring-after()逻辑相反,前者返回分隔字符串之前的内容,后者返回之后的内容。比如:
substring-before("a-b-c", "-") # 返回a
substring-after("a-b-c", "-") # 返回b-c
两者结合使用可以实现对字符串的灵活拆分,满足不同的数据提取需求。
XPathsubstring_afterXML解析路径表达式修改时间:2026-06-20 06:51:15