使用 Python 抓取多个图像的步骤
在网络数据采集的过程中,抓取并下载网页上的图像是一项非常常见的需求。无论是构建机器学习数据集、备份网站资源,还是进行数据分析,Python 都能凭借其强大的第三方库轻松胜任。本文将详细介绍使用 Python 抓取多个图像的完整步骤,并提供健壮的代码实现。
一、准备工作
在开始编写代码之前,我们需要安装两个核心的 Python 第三方库:requests 用于发送网络请求,beautifulsoup4 用于解析 HTML 页面提取图像链接。
打开命令行工具,执行以下命令安装所需库:
pip install requests beautifulsoup4
二、抓取图像的核心步骤
1. 分析目标网页结构
首先,需要打开目标网站(例如我们以 www.ipipp.com 作为演示站点),使用浏览器的开发者工具(F12)检查图像元素。通常,图像都包含在 <img> 标签中,其 src 属性即为图像的下载地址。我们需要明确图像是使用绝对路径还是相对路径。
2. 发送 HTTP 请求获取页面内容
使用 requests 库向目标 URL 发送 GET 请求,并添加请求头(User-Agent)模拟真实浏览器访问,以防止被网站的反爬虫机制拦截。
3. 解析 HTML 提取图像链接
利用 BeautifulSoup 解析获取到的 HTML 文本,通过 find_all('img') 方法找出所有的 <img> 标签,并提取其 src 属性值。
4. 处理相对路径
如果提取到的 src 是相对路径(如 /images/pic.jpg),需要使用 urllib.parse.urljoin 将其与基础 URL 拼接成完整的绝对路径。
5. 下载并保存图像
遍历获取到的所有图像绝对路径,再次使用 requests 请求图像数据(以二进制流的方式读取),并将其写入本地文件中。在此步骤中,加入异常处理机制,确保某一张图片下载失败不会导致整个程序崩溃。
三、完整代码实现
下面是整合了上述所有步骤的完整 Python 代码。该代码包含了目录创建、请求头伪装、相对路径处理以及错误重试逻辑:
import requests
from bs4 import BeautifulSoup
import os
from urllib.parse import urljoin
def download_images(base_url, save_folder):
# 1. 创建保存图像的文件夹
if not os.path.exists(save_folder):
os.makedirs(save_folder)
# 2. 设置请求头,模拟浏览器访问
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
}
try:
# 3. 发送 GET 请求获取网页内容
response = requests.get(base_url, headers=headers, timeout=10)
response.raise_for_status() # 检查请求是否成功
response.encoding = response.apparent_encoding # 自动识别编码
except requests.exceptions.RequestException as e:
print(f"请求网页失败: {e}")
return
# 4. 使用 BeautifulSoup 解析 HTML
soup = BeautifulSoup(response.text, 'html.parser')
# 5. 查找所有的 img 标签
img_tags = soup.find_all('img')
if not img_tags:
print("未在页面中找到任何图像标签。")
return
print(f"共找到 {len(img_tags)} 张图像,开始下载...")
# 6. 遍历并下载图像
for index, img in enumerate(img_tags):
img_url = img.get('src')
# 跳过没有 src 属性的标签
if not img_url:
continue
# 处理相对路径,将其转换为绝对路径
img_url = urljoin(base_url, img_url)
try:
# 请求图像资源
img_response = requests.get(img_url, headers=headers, stream=True, timeout=10)
img_response.raise_for_status()
# 从 URL 中提取文件名,如果无法提取则使用序号命名
file_name = img_url.split('/')[-1]
if '?' in file_name:
file_name = file_name.split('?')[0]
if not file_name.strip():
file_name = f"image_{index}.jpg"
save_path = os.path.join(save_folder, file_name)
# 以二进制写入方式保存图像
with open(save_path, 'wb') as f:
for chunk in img_response.iter_content(chunk_size=8192):
f.write(chunk)
print(f"成功下载: {file_name}")
except requests.exceptions.RequestException as e:
print(f"下载失败 [{img_url}]: {e}")
if __name__ == "__main__":
# 目标网站 URL(此处使用演示网址)
target_url = "https://www.ipipp.com"
# 图像保存的本地目录
target_folder = "downloaded_images"
download_images(target_url, target_folder)四、代码逻辑与错误修复说明
在实际编写抓取代码时,初学者常会遇到一些导致程序中断的错误,上述代码已针对这些问题进行了修复和优化:
相对路径导致 404 错误: 很多网站的
src属性是/static/img/a.jpg形式。如果直接请求会报错。代码中引入了urljoin,能够智能地将基础域名与相对路径拼接,生成合法的绝对 URL。文件名非法或为空: 部分图像链接可能带有参数(如
pic.jpg?v=123)或者路径末尾无文件名。代码通过字符串分割剔除了参数干扰,并在文件名为空时自动赋予默认序号名,防止文件写入失败。单张图片下载失败导致程序崩溃: 网络波动或图片链接失效会引发异常。代码在请求网页和下载图片时均加入了
try-except块,即使某张图片下载失败,程序也会捕获异常并打印日志,继续下载下一张。内存溢出风险: 下载图像时使用了
stream=True和iter_content分块写入机制,而不是一次性将大文件读入内存,这极大降低了抓取大量高清图片时的内存占用。
五、总结
使用 Python 抓取多个图像的关键在于:请求页面、解析结构、处理 URL、下载保存。在处理真实网站时,还可能会遇到懒加载(需要滚动页面才显示的图片,通常 src 存放在 data-src 属性中)以及更复杂的反爬验证。掌握本文的基础流程后,你可以根据目标网站的具体情况对解析逻辑进行灵活调整。