Python爬虫实现搜索数据抓取：从静态网站解析到分页处理完整教程

来源：站长平台作者：陈平安头衔：全栈工程师

导读：本期聚焦于小伙伴创作的《Python爬虫实现搜索数据抓取：从静态网站解析到分页处理完整教程》，敬请观看详情，探索知识的价值。以下视频、文章将为您系统阐述其核心内容与价值。如果您觉得《Python爬虫实现搜索数据抓取：从静态网站解析到分页处理完整教程》有用，将其分享出去将是对创作者最好的鼓励。

如何使用 Python 爬虫进行搜索

在网络数据抓取的场景中，模拟搜索并提取搜索结果是最常见的需求之一。无论是监控竞品价格、收集行业资讯，还是进行学术研究，掌握如何使用 Python 爬虫进行搜索都是一项非常核心的技能。本文将带你从零开始，详细了解使用 Python 实现搜索爬虫的完整流程。

一、准备工作

在开始编写代码之前，我们需要安装常用的 HTTP 请求库和 HTML 解析库。Python 中最经典的组合是 requests 和 BeautifulSoup。

打开终端或命令行，执行以下命令安装依赖：

pip install requests beautifulsoup4

二、分析搜索请求的 URL 结构

爬虫的第一步是分析目标网站的 URL 规则。以我们虚构的示例网站 www.ipipp.com 为例，当你在其搜索框中输入关键词“Python”并搜索时，浏览器的地址栏可能会变成如下形式：

https://www.ipipp.com/search?q=Python

或者：

https://www.ipipp.com/search?keyword=Python&page=1

通过观察 URL 的变化，我们可以找出携带搜索关键词的参数（如 q 或 keyword）以及分页参数（如 page）。这就是我们构建爬虫请求的基础。

三、构建请求与解析数据

1. 发送带参数的 GET 请求

使用 requests 库发送请求时，我们可以将搜索参数放入字典中，通过 params 参数传递，这样 requests 会自动为我们拼接 URL。同时，为了防止被网站基础的反爬机制拦截，我们需要设置 User-Agent 请求头伪装成浏览器。

import requests

def get_search_html(keyword, page=1):
    url = "https://www.ipipp.com/search"
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
    }
    params = {
        'q': keyword,
        'page': page
    }
    
    try:
        response = requests.get(url, params=params, headers=headers, timeout=10)
        response.raise_for_status()  # 检查请求是否成功
        response.encoding = response.apparent_encoding  # 自动识别编码防止乱码
        return response.text
    except requests.RequestException as e:
        print(f"请求失败: {e}")
        return None

2. 使用 BeautifulSoup 解析搜索结果

获取到网页的 HTML 源码后，我们需要使用 BeautifulSoup 提取我们需要的数据（如标题、链接、摘要）。假设在 www.ipipp.com 的搜索结果页面中，每条结果都包含在一个 <div class="result-item"> 标签内，标题在 <h3> 内，链接在 <a> 的 href 属性中。

from bs4 import BeautifulSoup

def parse_search_results(html):
    if not html:
        return []
    
    soup = BeautifulSoup(html, 'html.parser')
    results = []
    
    # 根据网页实际结构寻找元素
    items = soup.find_all('div', class_='result-item')
    
    for item in items:
        title_tag = item.find('h3')
        link_tag = item.find('a')
        snippet_tag = item.find('p', class_='snippet')
        
        if title_tag and link_tag:
            title = title_tag.get_text(strip=True)
            link = link_tag.get('href')
            snippet = snippet_tag.get_text(strip=True) if snippet_tag else '无摘要'
            
            results.append({
                'title': title,
                'link': link,
                'snippet': snippet
            })
            
    return results

四、完整代码示例：带分页的搜索爬虫

将上述模块组合起来，并加入分页逻辑和数据存储功能，就可以实现一个完整的搜索爬虫。以下是将数据保存为 CSV 文件的完整代码：

import requests
from bs4 import BeautifulSoup
import csv
import time

def get_search_html(keyword, page=1):
    url = "https://www.ipipp.com/search"
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'
    }
    params = {
        'q': keyword,
        'page': page
    }
    
    try:
        response = requests.get(url, params=params, headers=headers, timeout=10)
        response.raise_for_status()
        response.encoding = response.apparent_encoding
        return response.text
    except requests.RequestException as e:
        print(f"请求失败: {e}")
        return None

def parse_search_results(html):
    if not html:
        return []
    
    soup = BeautifulSoup(html, 'html.parser')
    results = []
    items = soup.find_all('div', class_='result-item')
    
    for item in items:
        title_tag = item.find('h3')
        link_tag = item.find('a')
        snippet_tag = item.find('p', class_='snippet')
        
        if title_tag and link_tag:
            results.append({
                'title': title_tag.get_text(strip=True),
                'link': link_tag.get('href'),
                'snippet': snippet_tag.get_text(strip=True) if snippet_tag else '无摘要'
            })
    return results

def save_to_csv(data, filename='search_results.csv'):
    if not data:
        print("没有数据可保存。")
        return
    
    with open(filename, 'w', newline='', encoding='utf-8-sig') as f:
        writer = csv.DictWriter(f, fieldnames=['title', 'link', 'snippet'])
        writer.writeheader()
        writer.writerows(data)
    print(f"数据已成功保存至 {filename}")

def main():
    keyword = "Python爬虫"
    max_pages = 3
    all_results = []
    
    for page in range(1, max_pages + 1):
        print(f"正在抓取第 {page} 页，关键词: {keyword}...")
        html = get_search_html(keyword, page)
        results = parse_search_results(html)
        
        if not results:
            print(f"第 {page} 页没有更多结果，停止抓取。")
            break
            
        all_results.extend(results)
        # 礼貌爬取，避免给服务器造成压力
        time.sleep(2)
        
    save_to_csv(all_results)

if __name__ == "__main__":
    main()

五、注意事项与进阶技巧

遵守 robots.txt 协议：在爬取任何网站前，建议查看其 robots.txt（如 www.ipipp.com/robots.txt），尊重网站的爬虫限制规则。
控制访问频率：高频次的请求不仅容易导致你的 IP 被封禁，也会对目标服务器造成破坏。务必在请求之间加入延时（如 time.sleep(2)）。
动态渲染页面：如果目标网站的搜索结果是通过 JavaScript 动态加载的（例如 Ajax 请求），使用 requests 只能拿到空白壳。此时需要分析其底层的 API 接口，或者使用 Selenium、Playwright 等浏览器自动化工具来模拟搜索。
反爬虫应对：遇到验证码或 IP 限制时，可以考虑使用代理 IP 池、Cookies 池或者 OCR 识别技术来应对。

总结

使用 Python 进行搜索爬虫的核心在于：分析 URL 参数结构、模拟浏览器发送请求、解析 HTML 提取数据。本文提供了一套基于 requests + BeautifulSoup 的基础解决方案，适用于大多数静态网页的搜索抓取。面对更复杂的动态网站，只需将请求模块替换为自动化测试工具，整体的数据提取逻辑依然适用。

Python爬虫搜索数据抓取 BeautifulSoup 分页处理反爬虫修改时间：2026-04-20 17:22:53

免责声明：已尽一切努力确保本网站所含信息的准确性。网站内容多为原创整理与精心编撰，观点力求客观中立。本站旨在免费分享，内容仅供个人学习、研究或参考使用。若引用了第三方作品，版权归原作者所有。如内容涉及您的权益，请联系我们处理。