Python使用正则表达式匹配到第一个闭合标签就停止？

来源：IPIPP.com作者：陈平安头衔：全栈工程师

导读：本期聚焦于小伙伴创作的《Python使用正则表达式匹配到第一个闭合标签就停止？》，敬请观看详情，探索知识的价值。以下视频、文章将为您系统阐述其核心内容与价值。如果您觉得《Python使用正则表达式匹配到第一个闭合标签就停止？》有用，将其分享出去将是对创作者最好的鼓励。

在Python的文本处理场景中，我们经常会遇到需要匹配第一个闭合标签的需求，比如从一段HTML代码里提取第一个<div>标签的完整内容，或者获取第一个<span>标签的包裹文本。但很多新手直接用普通正则匹配时，往往会匹配到最后一个同类型闭合标签，达不到预期效果。其实只要掌握正则的非贪婪匹配特性，就能轻松实现匹配到第一个闭合标签就停止的目标。

核心原理：非贪婪匹配

正则表达式默认是贪婪匹配，会尽可能多地匹配字符，比如用<div>.*</div>匹配<div>a</div><div>b</div>时，会直接匹配到整个字符串，而不是第一个<div>的内容。而非贪婪匹配会在满足条件的情况下尽可能少地匹配字符，只需要在量词后面加?就能开启，比如.*?就是非贪婪的任意字符匹配。

具体实现步骤

我们可以结合re模块的search方法，使用非贪婪模式的正则表达式来匹配第一个闭合标签，步骤如下：

导入re模块
构造带非贪婪匹配的正则表达式，匹配开始标签、中间内容、第一个闭合标签
使用re.search()方法查找第一个匹配结果
提取匹配到的内容

代码示例

以下代码演示了如何匹配第一个<div>闭合标签的完整内容：

import re

# 测试用的HTML文本
html_text = "<div class='box'>第一个div内容</div><div>第二个div内容</div><p>其他文本</p>"

# 构造非贪婪匹配的正则，匹配第一个div闭合标签
# 注意：这里用.*?非贪婪匹配中间内容，避免匹配到后面的div
pattern = r"<div[^>]*>.*?</div>"

# 使用search方法查找第一个匹配结果
match_result = re.search(pattern, html_text)

if match_result:
    print("匹配到的第一个div闭合标签内容：")
    print(match_result.group())
else:
    print("未匹配到对应的闭合标签")

运行上述代码，输出结果为：

匹配到的第一个div闭合标签内容：
<div class='box'>第一个div内容</div>

匹配其他类型标签的示例

如果需要匹配其他标签，比如<p>标签，只需要调整正则中的标签名即可：

import re

html_text = "<p>第一个段落</p><p>第二个段落</p>"

# 匹配第一个p闭合标签
pattern = r"<p[^>]*>.*?</p>"
match_result = re.search(pattern, html_text)

if match_result:
    print("匹配到的第一个p标签内容：")
    print(match_result.group())

注意事项

虽然正则可以快速匹配简单的闭合标签，但如果是处理复杂的HTML/XML文档，比如标签嵌套、属性包含特殊字符的场景，正则可能会出现匹配错误的情况。这种时候更推荐使用专门的解析库，比如BeautifulSoup或者lxml，它们的解析逻辑更符合标签的嵌套规则，稳定性更高。如果只是处理简单的文本标签匹配，上述正则方法完全可以满足需求。

另外要注意，正则中的[^>]*是用来匹配开始标签里的属性，避免属性里的>被误判为标签结束，这个写法可以适配带属性的开始标签场景。

Python 正则表达式闭合标签 re模块非贪婪匹配修改时间：2026-05-28 20:57:58

免责声明：已尽一切努力确保本网站所含信息的准确性。网站内容多为原创整理与精心编撰，观点力求客观中立。本站旨在免费分享，内容仅供个人学习、研究或参考使用。若引用了第三方作品，版权归原作者所有。如内容涉及您的权益，请联系我们处理。