如何用 Python 正则表达式精准提取多行分隔符之间的内容（含换行、去注释）

来源：站长平台作者：南京GEO公司头衔：草根站长

导读：本期聚焦于小伙伴创作的《如何用 Python 正则表达式精准提取多行分隔符之间的内容（含换行、去注释）》，敬请观看详情，探索知识的价值。以下视频、文章将为您系统阐述其核心内容与价值。如果您觉得《如何用 Python 正则表达式精准提取多行分隔符之间的内容（含换行、去注释）》有用，将其分享出去将是对创作者最好的鼓励。

在Python文本处理场景中，提取两个特定分隔符之间的多行内容是常见需求，当内容包含换行、还夹杂注释时，普通的正则匹配很容易出现遗漏或者匹配错误的情况，需要结合正则的多行模式、非贪婪匹配等特性来实现精准提取。

核心正则特性说明

要实现多行分隔符之间的内容提取，需要先了解几个关键的正则特性：

re.DOTALL标志：让正则中的点号.可以匹配包括换行符在内的所有字符，默认情况下点号不匹配换行。
非贪婪匹配：使用.*?而不是.*，避免匹配到超出目标分隔符范围的内容。
注释过滤：可以通过正则替换先去除注释，再提取目标内容，或者把注释匹配规则整合到提取逻辑中。

基础实现：提取多行分隔符之间的内容

假设我们要提取/*START*/和/*END*/之间的所有内容，包含换行，首先实现基础的多行提取逻辑：

import re

text = """
一些无关内容
/*START*/
第一行目标内容
第二行目标内容
第三行目标内容
/*END*/
其他无关内容
"""

# 定义正则模式，使用非贪婪匹配，开启DOTALL让点号匹配换行
pattern = r"/*START*/(.*?)/*END*"
# 使用re.DOTALL标志
result = re.search(pattern, text, re.DOTALL)

if result:
    target_content = result.group(1)
    print("提取到的内容：")
    print(target_content)

上述代码中，/*START*/(.*?)/*END*是匹配模式，*用来转义分隔符中的星号，(.*?)是捕获组，用来获取两个分隔符之间的内容，re.DOTALL保证点号可以匹配换行符。

进阶实现：提取时去除注释内容

如果目标内容中还包含单行注释，比如以//开头的注释，需要在提取后或者提取时过滤掉这些注释，我们可以分两步处理：先提取目标内容，再去除其中的注释。

import re

text = """
一些无关内容
/*START*/
第一行目标内容
// 这是单行注释，需要去掉
第二行目标内容
/*END*/
其他无关内容
"""

# 第一步：提取分隔符之间的内容
extract_pattern = r"/*START*/(.*?)/*END*"
extract_result = re.search(extract_pattern, text, re.DOTALL)

if extract_result:
    raw_content = extract_result.group(1)
    # 第二步：去除单行注释，注释以//开头，到行尾结束
    comment_pattern = r"//.*$"
    # 使用re.MULTILINE标志，让$匹配每行的行尾
    clean_content = re.sub(comment_pattern, "", raw_content, flags=re.MULTILINE)
    # 去掉每行首尾的空白字符，清理空行
    lines = [line.strip() for line in clean_content.splitlines() if line.strip()]
    final_content = "n".join(lines)
    print("最终提取并去注释后的内容：")
    print(final_content)

这里的re.MULTILINE标志会让$匹配每行的行尾，而不是整个字符串的结尾，这样就能正确匹配每一行的//注释并替换掉。如果还有多行注释/* */需要过滤，可以再添加对应的替换规则。

复杂场景：直接整合提取和去注释逻辑

如果希望在一个正则过程中完成提取和去注释，也可以把注释匹配规则整合到正则中，不过这种方式可读性稍差，适合固定格式的场景：

import re

text = """
一些无关内容
/*START*/
第一行目标内容
// 单行注释
第二行目标内容
/* 多行注释 */
第三行目标内容
/*END*/
其他无关内容
"""

# 整合模式：先匹配分隔符，中间内容排除注释部分
# 这里先匹配非注释的内容，再匹配注释内容并忽略
pattern = r"/*START*/(.*?)(?://.*$|/*.*?*/)?(.*?)/*END*"
# 实际更推荐分步骤处理，这里仅作示例
# 分步骤处理更清晰，先提取再替换注释
extract_pattern = r"/*START*/(.*?)/*END*"
extract_result = re.search(extract_pattern, text, re.DOTALL)

if extract_result:
    raw_content = extract_result.group(1)
    # 去除单行注释
    single_comment_pattern = r"//.*$"
    temp_content = re.sub(single_comment_pattern, "", raw_content, flags=re.MULTILINE)
    # 去除多行注释
    multi_comment_pattern = r"/*.*?*/"
    clean_content = re.sub(multi_comment_pattern, "", temp_content, flags=re.DOTALL)
    lines = [line.strip() for line in clean_content.splitlines() if line.strip()]
    final_content = "n".join(lines)
    print("最终处理结果：")
    print(final_content)

注意事项

分隔符如果包含正则特殊字符，比如.、*、+等，一定要用反斜杠转义，否则会被正则引擎解析为特殊含义。
如果分隔符可能有多组，需要使用re.findall而不是re.search，findall会返回所有匹配到的捕获组内容。
处理大文本时，复杂的正则可能会影响性能，可以根据实际场景简化匹配规则，或者分块处理文本。

正则匹配的结果和具体的文本格式强相关，实际使用时需要根据真实的分隔符格式、注释规则调整正则模式，建议先在小样本文本上测试通过后再应用到全量数据。

Python 正则表达式多行匹配内容提取去注释修改时间：2026-06-26 17:15:34

免责声明：已尽一切努力确保本网站所含信息的准确性。网站内容多为原创整理与精心编撰，观点力求客观中立。本站旨在免费分享，内容仅供个人学习、研究或参考使用。若引用了第三方作品，版权归原作者所有。如内容涉及您的权益，请联系我们处理。