BeautifulSoup get_text()教程：轻松提取HTML标签纯文本的实用方法

来源：站长平台作者：陈平安时间：05-12

导读：本期聚焦于小伙伴创作的《BeautifulSoup get_text()教程：轻松提取HTML标签纯文本的实用方法》，敬请观看详情，探索知识的价值。以下视频、文章将为您系统阐述其核心内容与价值。如果您觉得《BeautifulSoup get_text()教程：轻松提取HTML标签纯文本的实用方法》有用，将其分享出去将是对创作者最好的鼓励。

在处理网页抓取或HTML解析任务时，BeautifulSoup是一个非常实用的Python库。它能够帮助开发者从HTML或XML文档中轻松提取数据，尤其是当我们需要获取某个标签内部的纯文本内容时，BeautifulSoup提供了简洁而高效的方法。

本教程将详细介绍如何使用BeautifulSoup从指定的HTML元素中提取纯文本内容，包括常用的get_text()方法、.text属性以及需要注意的细节。

准备工作

在开始之前，请确保已安装BeautifulSoup和解析器lxml（推荐）或html.parser。可以使用以下命令安装：

pip install beautifulsoup4 lxml

假设我们有一个简单的HTML文档作为示例，内容如下：

<div id="content">
    <h1>欢迎访问ipipp.com</h1>
    <p>这是一个<strong>重要</strong>的示例。</p>
    <ul>
        <li>第一项</li>
        <li>第二项</li>
    </ul>
    <!-- 注释不会显示 -->
    直接文本节点
</div>

我们将基于这个结构演示如何提取div#content中的所有纯文本内容。

基本方法：get_text()

BeautifulSoup的get_text()方法是最常用的获取纯文本的方式。它会递归地获取标签内部所有文本，包括子标签中的文本，并且会移除HTML标签和注释。

from bs4 import BeautifulSoup

html_doc = '''
<div id="content">
    <h1>欢迎访问ipipp.com</h1>
    <p>这是一个<strong>重要</strong>的示例。</p>
    <ul>
        <li>第一项</li>
        <li>第二项</li>
    </ul>
    <!-- 注释不会显示 -->
    直接文本节点
</div>
'''

soup = BeautifulSoup(html_doc, 'lxml')
content_div = soup.find('div', id='content')
text = content_div.get_text()
print(text)

运行上面的代码，输出结果如下：

欢迎访问ipipp.com
这是一个重要的示例。
第一项
第二项
直接文本节点

可以看到，所有标签都被剥离，只留下了文本内容，并且文本之间保留了原本的换行（因为HTML中有换行符）。

控制分隔符：strip参数和separator参数

有时我们不需要保留杂乱的空格和换行。BeautifulSoup的get_text()支持两个关键参数：

strip：布尔值，若为True，则自动去除每个文本块首尾的空白字符（包括换行、空格等），并且不会保留内部的空白结构。
separator：字符串，用于指定文本块之间的分隔符，默认为空（即不加分隔符）。

from bs4 import BeautifulSoup

html_doc = '''
<div id="content">
    <h1>欢迎访问ipipp.com</h1>
    <p>这是一个<strong>重要</strong>的示例。</p>
    <ul>
        <li>第一项</li>
        <li>第二项</li>
    </ul>
    直接文本节点
</div>
'''

soup = BeautifulSoup(html_doc, 'lxml')
content = soup.find('div', id='content')

# 使用 strip 和 separator
text_clean = content.get_text(strip=True, separator='|')
print(text_clean)

输出结果为：

欢迎访问ipipp.com|这是一个重要的示例。|第一项|第二项|直接文本节点

此时所有的换行和多余空格都被移除，文本块之间用竖线分隔，更便于后续处理。

使用 .text 属性

.text属性是get_text()方法的快捷方式，不传递任何参数时等同于调用get_text()。但需要注意的是，.text不支持strip和separator参数，因此如果你需要精细控制，推荐使用get_text()。

content_div = soup.find('div', id='content')
text_via_text = content_div.text
print(text_via_text)

结果与最开始的get_text()类似，会保留HTML中的原始空白。

注意事项

对于<script>、<style>等标签，get_text()也会提取其中的文本，如果你不希望包含脚本或样式内容，可以在提取之前先移除这些标签。
当元素只包含一个文本子节点时，可以使用.string属性获取该文本，但如果有多个子节点或嵌套标签，.string返回None，此时必须使用get_text()。
解析器选择：lxml速度更快且容错性更好，但需要额外安装；Python内置的html.parser也可用，但性能稍差。

完整示例：提取并清理文本

下面是一个真实的场景：从网页中抓取一段包含格式化文本的内容，并提取出干净的纯文本。假设要抓取的HTML片段保存在变量html_snippet中。

from bs4 import BeautifulSoup

html_snippet = '''
<div class="article">
    <h2>教程标题</h2>
    <p>这是<em>斜体</em>和<b>粗体</b>文字。</p>
    <p>第二段落包含<a href="https://ipipp.com">一个链接</a>。</p>
</div>
'''

soup = BeautifulSoup(html_snippet, 'lxml')
article = soup.find('div', class_='article')
clean_text = article.get_text(separator=' ', strip=True)
print(clean_text)

输出：

教程标题 这是斜体和粗体文字。 第二段落包含一个链接。

通过设置separator=' '，我们用空格连接了不同段的文本，去除了多余的换行，非常适合用于搜索引擎索引或简单的文本分析。

总结

BeautifulSoup提供了灵活的方式从HTML中提取纯文本：

使用get_text()方法，支持strip和separator参数。
使用.text属性作为快捷方式，但不支持参数。
如果需要排除某些标签（如脚本），可以先调用decompose()移除它们。
注意不同解析器可能产生细微差异，建议始终指定解析器参数。

掌握这些方法后，你就可以轻松地从任何HTML元素中提取出干净的纯文本内容，为后续的数据处理、搜索或展示做好准备。

BeautifulSoup get_text HTML文本提取 Python数据抓取 BeautifulSoup教程

免责声明：已尽一切努力确保本网站所含信息的准确性。网站部分内容来源于网络或由用户自行发表，内容观点不代表本站立场。本站是个人网站免费分享，内容仅供个人学习、研究或参考使用，如内容中引用了第三方作品，其版权归原作者所有。若内容触犯了您的权益，请联系我们进行处理。