XPath字符串截取教程：使用substring-after函数精确提取目标文本

来源：IPIPP.com作者：陈平安头衔：全栈工程师

导读：本期聚焦于小伙伴创作的《XPath字符串截取教程：使用substring-after函数精确提取目标文本》，敬请观看详情，探索知识的价值。以下视频、文章将为您系统阐述其核心内容与价值。如果您觉得《XPath字符串截取教程：使用substring-after函数精确提取目标文本》有用，将其分享出去将是对创作者最好的鼓励。

使用 XPath 提取文本：substring-after 函数的应用

在处理网页数据提取、XML文档解析等场景时，我们经常会遇到需要截取特定字符串之后的内容的需求。XPath作为一门在XML和HTML文档中查找信息的语言，内置的substring-after函数可以非常高效地完成这类文本截取任务，不需要额外编写复杂的字符串处理逻辑。

substring-after 函数基础说明

substring-after是XPath 1.0就支持的内置字符串函数，它的作用是从目标字符串中，截取指定分隔字符串之后的所有内容。函数的基本语法格式如下：

substring-after(目标字符串, 分隔字符串)

这个函数会返回两个结果：如果目标字符串中包含分隔字符串，就返回分隔字符串之后的剩余部分；如果目标字符串中不存在分隔字符串，就返回空字符串。需要注意的是，分隔字符串的匹配是严格区分大小写的，而且只会匹配第一个出现的分隔字符串，不会处理后续重复出现的情况。

实际应用场景示例

下面我们通过几个常见的场景来演示substring-after函数的具体用法，所有示例都基于XPath的语法规则，可以在支持XPath的解析工具（比如lxml、Selenium等）中直接使用。

场景1：解析HTML中的属性值

假设我们有一个HTML片段，其中某个<div>标签的class属性值包含前缀，我们需要提取前缀之后的内容：

<div class="user-name_zhangsan">张三</div>
<div class="user-age_25">25岁</div>

如果我们想提取class属性中下划线之后的内容，对应的XPath表达式如下：

//div/@class  # 先获取所有div的class属性值
substring-after(//div/@class, '_')  # 对每个class值截取下划线之后的内容

执行上面的XPath表达式后，会得到两个结果：zhangsan和25，正好是我们需要的属性值后缀部分。

场景2：提取XML节点中的文本内容

假设我们有一个XML格式的用户信息数据，其中<contact>节点的内容包含邮箱前缀和完整邮箱，需要提取出完整的邮箱地址：

<users>
  <user>
    <name>李四</name>
    <contact>邮箱:lisi@ipipp.com</contact>
  </user>
  <user>
    <name>王五</name>
    <contact>邮箱:wangwu@ipipp.com</contact>
  </user>
</users>

这里我们需要截取邮箱:字符串之后的内容，对应的XPath表达式如下：

substring-after(//contact/text(), '邮箱:')

执行后会得到两个结果：lisi@ipipp.com和wangwu@ipipp.com，直接拿到了完整的邮箱地址，不需要再做额外的字符串分割处理。

场景3：结合Python lxml库使用

在实际的Python爬虫开发中，我们经常会用lxml库来解析HTML/XML文档，结合substring-after函数可以快速完成数据提取。下面是一个完整的示例代码：

from lxml import etree

# 待解析的HTML内容
html_content = """
<div class="product-price_199">199元</div>
<div class="product-price_299">299元</div>
"""

# 解析HTML
tree = etree.HTML(html_content)

# 使用XPath的substring-after函数提取价格数字
# 先获取class属性，再截取下划线之后的内容，最后转换为整数
prices = tree.xpath("substring-after(//div/@class, '_')")
# 注意：如果xpath返回多个结果，上面的写法只会拿到第一个，多个结果需要用循环处理
price_list = []
for class_val in tree.xpath("//div/@class"):
    # 对每个class值单独调用substring-after逻辑
    # lxml中可以用扩展函数，或者直接用Python字符串处理，这里演示XPath函数结合使用
    price = etree.XPath("substring-after(., '_')")(class_val)
    price_list.append(int(price))

print(price_list)  # 输出：[199, 299]

上面的代码中，我们先解析了HTML文档，然后通过XPath表达式结合substring-after函数提取了class属性中下划线之后的价格数字，最后转换为整数类型，完成了数据的提取和处理。

注意事项

substring-after函数只会匹配第一个出现的分隔字符串，如果目标字符串中有多个相同的分隔符，只会截取第一个分隔符之后的内容，后续的分隔符不会被处理。
如果目标字符串中不存在分隔字符串，函数会返回空字符串，在使用结果前最好做一下非空判断，避免出现逻辑错误。
分隔字符串的长度不影响函数执行，哪怕分隔字符串是空字符串，函数也会返回整个目标字符串，不过这种场景一般没有实际意义。
在XPath 2.0及以上版本中，还有substring-after-last函数，可以截取最后一个分隔字符串之后的内容，但是XPath 1.0不支持这个函数，如果需要兼容1.0环境，可以用多次调用substring-after的方式实现类似效果。

总结

substring-after函数是XPath中非常实用的字符串处理工具，能够帮我们快速完成特定分隔符之后的文本提取工作，减少额外的字符串处理代码。无论是解析HTML网页数据，还是处理XML格式的配置文件、接口返回数据，都可以灵活运用这个函数提升开发效率。在实际使用中，只要注意分隔字符串的匹配规则和处理边界情况，就能稳定地完成各类文本截取需求。

XPath substring-after函数字符串截取网页数据提取 XML解析修改时间：2026-05-15 12:59:39

免责声明：已尽一切努力确保本网站所含信息的准确性。网站内容多为原创整理与精心编撰，观点力求客观中立。本站旨在免费分享，内容仅供个人学习、研究或参考使用。若引用了第三方作品，版权归原作者所有。如内容涉及您的权益，请联系我们处理。