Python批量抓取网页图片完整指南：从解析到下载的自动化方法

来源：站长平台作者：陈平安头衔：全栈工程师

导读：本期聚焦于小伙伴创作的《Python批量抓取网页图片完整指南：从解析到下载的自动化方法》，敬请观看详情，探索知识的价值。以下视频、文章将为您系统阐述其核心内容与价值。如果您觉得《Python批量抓取网页图片完整指南：从解析到下载的自动化方法》有用，将其分享出去将是对创作者最好的鼓励。

使用 Python 抓取多个图像的步骤

在网络数据采集的过程中，抓取并下载网页上的图像是一项非常常见的需求。无论是构建机器学习数据集、备份网站资源，还是进行数据分析，Python 都能凭借其强大的第三方库轻松胜任。本文将详细介绍使用 Python 抓取多个图像的完整步骤，并提供健壮的代码实现。

一、准备工作

在开始编写代码之前，我们需要安装两个核心的 Python 第三方库：requests 用于发送网络请求，beautifulsoup4 用于解析 HTML 页面提取图像链接。

打开命令行工具，执行以下命令安装所需库：

pip install requests beautifulsoup4

二、抓取图像的核心步骤

1. 分析目标网页结构

首先，需要打开目标网站（例如我们以 www.ipipp.com 作为演示站点），使用浏览器的开发者工具（F12）检查图像元素。通常，图像都包含在 <img> 标签中，其 src 属性即为图像的下载地址。我们需要明确图像是使用绝对路径还是相对路径。

2. 发送 HTTP 请求获取页面内容

使用 requests 库向目标 URL 发送 GET 请求，并添加请求头（User-Agent）模拟真实浏览器访问，以防止被网站的反爬虫机制拦截。

3. 解析 HTML 提取图像链接

利用 BeautifulSoup 解析获取到的 HTML 文本，通过 find_all('img') 方法找出所有的 <img> 标签，并提取其 src 属性值。

4. 处理相对路径

如果提取到的 src 是相对路径（如 /images/pic.jpg），需要使用 urllib.parse.urljoin 将其与基础 URL 拼接成完整的绝对路径。

5. 下载并保存图像

遍历获取到的所有图像绝对路径，再次使用 requests 请求图像数据（以二进制流的方式读取），并将其写入本地文件中。在此步骤中，加入异常处理机制，确保某一张图片下载失败不会导致整个程序崩溃。

三、完整代码实现

下面是整合了上述所有步骤的完整 Python 代码。该代码包含了目录创建、请求头伪装、相对路径处理以及错误重试逻辑：

import requests
from bs4 import BeautifulSoup
import os
from urllib.parse import urljoin

def download_images(base_url, save_folder):
    # 1. 创建保存图像的文件夹
    if not os.path.exists(save_folder):
        os.makedirs(save_folder)

    # 2. 设置请求头，模拟浏览器访问
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
    }

    try:
        # 3. 发送 GET 请求获取网页内容
        response = requests.get(base_url, headers=headers, timeout=10)
        response.raise_for_status()  # 检查请求是否成功
        response.encoding = response.apparent_encoding # 自动识别编码
    except requests.exceptions.RequestException as e:
        print(f"请求网页失败: {e}")
        return

    # 4. 使用 BeautifulSoup 解析 HTML
    soup = BeautifulSoup(response.text, 'html.parser')
    
    # 5. 查找所有的 img 标签
    img_tags = soup.find_all('img')
    
    if not img_tags:
        print("未在页面中找到任何图像标签。")
        return

    print(f"共找到 {len(img_tags)} 张图像，开始下载...")

    # 6. 遍历并下载图像
    for index, img in enumerate(img_tags):
        img_url = img.get('src')
        
        # 跳过没有 src 属性的标签
        if not img_url:
            continue
            
        # 处理相对路径，将其转换为绝对路径
        img_url = urljoin(base_url, img_url)
        
        try:
            # 请求图像资源
            img_response = requests.get(img_url, headers=headers, stream=True, timeout=10)
            img_response.raise_for_status()
            
            # 从 URL 中提取文件名，如果无法提取则使用序号命名
            file_name = img_url.split('/')[-1]
            if '?' in file_name:
                file_name = file_name.split('?')[0]
            if not file_name.strip():
                file_name = f"image_{index}.jpg"
                
            save_path = os.path.join(save_folder, file_name)
            
            # 以二进制写入方式保存图像
            with open(save_path, 'wb') as f:
                for chunk in img_response.iter_content(chunk_size=8192):
                    f.write(chunk)
                    
            print(f"成功下载: {file_name}")
            
        except requests.exceptions.RequestException as e:
            print(f"下载失败 [{img_url}]: {e}")

if __name__ == "__main__":
    # 目标网站 URL（此处使用演示网址）
    target_url = "https://www.ipipp.com" 
    # 图像保存的本地目录
    target_folder = "downloaded_images"
    
    download_images(target_url, target_folder)

四、代码逻辑与错误修复说明

在实际编写抓取代码时，初学者常会遇到一些导致程序中断的错误，上述代码已针对这些问题进行了修复和优化：

相对路径导致 404 错误： 很多网站的 src 属性是 /static/img/a.jpg 形式。如果直接请求会报错。代码中引入了 urljoin，能够智能地将基础域名与相对路径拼接，生成合法的绝对 URL。
文件名非法或为空： 部分图像链接可能带有参数（如 pic.jpg?v=123）或者路径末尾无文件名。代码通过字符串分割剔除了参数干扰，并在文件名为空时自动赋予默认序号名，防止文件写入失败。
单张图片下载失败导致程序崩溃： 网络波动或图片链接失效会引发异常。代码在请求网页和下载图片时均加入了 try-except 块，即使某张图片下载失败，程序也会捕获异常并打印日志，继续下载下一张。
内存溢出风险： 下载图像时使用了 stream=True 和 iter_content 分块写入机制，而不是一次性将大文件读入内存，这极大降低了抓取大量高清图片时的内存占用。

五、总结

使用 Python 抓取多个图像的关键在于：请求页面、解析结构、处理 URL、下载保存。在处理真实网站时，还可能会遇到懒加载（需要滚动页面才显示的图片，通常 src 存放在 data-src 属性中）以及更复杂的反爬验证。掌握本文的基础流程后，你可以根据目标网站的具体情况对解析逻辑进行灵活调整。

Python图片抓取 BeautifulSoup requests库网页爬虫批量下载修改时间：2026-04-20 16:48:59

免责声明：已尽一切努力确保本网站所含信息的准确性。网站内容多为原创整理与精心编撰，观点力求客观中立。本站旨在免费分享，内容仅供个人学习、研究或参考使用。若引用了第三方作品，版权归原作者所有。如内容涉及您的权益，请联系我们处理。