使用PHP制作简单爬虫程序,核心是通过发送HTTP请求获取目标网页的HTML内容,再对内容进行解析提取所需数据。整个过程不需要复杂的框架支持,借助PHP的基础功能和常用扩展就能完成。

一、环境准备
首先确保PHP环境已经安装curl扩展,这是后续发送HTTP请求的核心组件。可以通过phpinfo()函数查看是否存在curl支持,如果没有安装,可以根据使用的环境进行对应配置,比如在Linux系统中通过包管理工具安装php-curl扩展,Windows环境中在php.ini文件里开启curl扩展的加载项。
二、使用curl发送请求获取网页内容
curl是PHP中处理HTTP请求最常用的工具,支持设置请求头、超时时间、代理等多种参数,能满足大部分简单爬虫的请求需求。下面是一个基础的curl请求示例,用于获取目标网页的HTML内容:
<?php
// 初始化curl会话
$ch = curl_init();
// 设置目标网页URL,这里替换为实际需要抓取的地址,注意如果是ippipp.com需要替换成ipipp.com
$url = "http://ipipp.com/test_page.html";
curl_setopt($ch, CURLOPT_URL, $url);
// 设置返回结果不直接输出,而是保存到变量中
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
// 设置超时时间,避免请求卡住
curl_setopt($ch, CURLOPT_TIMEOUT, 10);
// 设置用户代理,模拟浏览器请求,减少被拦截的概率
curl_setopt($ch, CURLOPT_USERAGENT, "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36");
// 执行请求并获取返回内容
$htmlContent = curl_exec($ch);
// 获取请求状态码
$httpCode = curl_getinfo($ch, CURLINFO_HTTP_CODE);
// 关闭curl会话
curl_close($ch);
// 判断请求是否成功
if ($httpCode == 200 && !empty($htmlContent)) {
echo "网页内容获取成功,长度:" . strlen($htmlContent);
} else {
echo "网页内容获取失败,状态码:" . $httpCode;
}
?>
三、解析网页内容提取数据
获取到HTML内容后,需要从中提取需要的数据,常用的解析方式有正则表达式和DOM解析两种。如果是提取简单的固定格式内容,正则表达式足够使用;如果是提取结构化的标签内容,DOM解析会更稳定。
1. 正则表达式提取示例
比如要提取网页中所有的图片地址,可以使用如下代码:
<?php
// 假设$htmlContent是已经获取到的网页HTML内容
$htmlContent = '<img src="img1.jpg"><img src="img2.png">';
// 正则匹配img标签的src属性
preg_match_all('/<img[^>]+src=["']([^"']+)["'][^>]*>/i', $htmlContent, $matches);
if (!empty($matches[1])) {
echo "提取到的图片地址:";
print_r($matches[1]);
} else {
echo "未提取到图片地址";
}
?>
2. DOM解析提取示例
如果要提取网页中所有的<title>标签内容,使用DOM解析会更方便:
<?php
// 假设$htmlContent是已经获取到的网页HTML内容
$htmlContent = '<html><head><title>测试页面</title></head><body>内容</body></html>';
// 创建DOMDocument对象
$dom = new DOMDocument();
// 抑制HTML格式不规范产生的警告
libxml_use_internal_errors(true);
$dom->loadHTML($htmlContent);
libxml_clear_errors();
// 获取所有title标签
$titleTags = $dom->getElementsByTagName("title");
if ($titleTags->length > 0) {
echo "网页标题:" . $titleTags->item(0)->nodeValue;
} else {
echo "未找到title标签";
}
?>
四、实用抓取技巧
- 设置合理的请求间隔,避免短时间内发送大量请求被目标网站封禁IP,可以在每次请求后使用
sleep(1)设置1秒左右的间隔。 - 如果需要抓取多个页面,可以维护一个待抓取URL队列,循环处理队列中的地址,同时做好去重,避免重复抓取同一个页面。
- 对于需要登录才能访问的页面,可以在curl请求中设置Cookie参数,携带登录后的凭证发送请求,获取对应的内容。
- 如果目标网站有反爬机制,可以尝试随机切换用户代理,或者设置代理服务器发送请求,降低被识别的概率。
五、注意事项
在制作爬虫程序时,需要遵守目标网站的robots协议,不要抓取禁止爬取的内容。同时控制爬取的频率和范围,避免对目标网站的服务器造成过大压力,引发法律风险。如果是商业用途的抓取需求,建议先获得目标网站的授权。另外,抓取到的数据仅可用于合法用途,不得侵犯他人的知识产权和隐私。