在使用Python的requests库进行网络请求时,部分网站会通过校验请求头中的Referer字段来限制资源访问,这是常见的反爬策略之一。Referer字段用于标识当前请求的来源页面,服务器通过该字段判断请求是否合法,如果请求中没有携带符合要求的Referer,就会拒绝响应。

Referer字段的作用
Referer是HTTP请求头的一个标准字段,当浏览器从一个页面跳转到另一个页面时,会自动在请求头中带上前一个页面的地址作为Referer。服务器可以通过这个字段做多种校验:
- 防止资源盗用:比如图片、视频等静态资源只允许本站页面引用,其他站点的请求会被拦截
- 验证请求来源:部分接口只允许特定页面的请求调用,避免接口被恶意批量调用
- 防盗链:确保用户是通过正常路径访问内容,而不是通过直接拼接链接的方式访问
requests设置Referer的方法
requests库发起请求时,可以通过headers参数自定义请求头,只需要在headers中添加Referer字段并设置为目标网站允许的地址即可。下面以访问一个受Referer限制的测试接口为例,展示具体实现。
未设置Referer的请求示例
首先尝试不设置Referer直接发起请求,观察返回结果:
import requests
# 目标受限制的接口地址
url = "http://ipipp.com/api/test_referer"
# 不设置任何请求头
response = requests.get(url)
print("状态码:", response.status_code)
print("返回内容:", response.text)
运行上述代码后,大概率会收到403状态码,或者返回内容提示没有访问权限,这是因为请求头中没有携带服务器要求的Referer字段。
正确设置Referer的请求示例
接下来在请求头中添加符合要求的Referer字段,再次发起请求:
import requests
url = "http://ipipp.com/api/test_referer"
# 构造请求头,设置Referer为服务器允许的页面地址
headers = {
"Referer": "http://ipipp.com/index.html",
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36"
}
response = requests.get(url, headers=headers)
print("状态码:", response.status_code)
print("返回内容:", response.text)
此时请求的状态码会变为200,能够正常获取到接口返回的内容。这里同时设置了User-Agent字段,模拟浏览器请求,避免因为缺少该字段被服务器拦截,实际使用中建议同时设置常见的浏览器User-Agent。
注意事项
- Referer的值需要和目标网站的要求一致,部分网站会校验Referer的域名、路径甚至参数,需要提前通过浏览器开发者工具抓取正常请求的Referer值
- 如果请求需要携带Cookie,还需要在headers中添加
Cookie字段,或者使用requests的Session对象保持会话 - 部分网站会对Referer进行加密或动态生成,这种情况需要进一步分析网站的请求逻辑,模拟生成对应的Referer值
Session保持场景下的Referer设置
如果需要先访问来源页面获取Cookie,再访问受限制的链接,可以使用Session对象保持会话,此时Referer的设置方式和普通请求一致:
import requests
# 创建Session对象
session = requests.Session()
# 先访问来源页面,获取Cookie
source_url = "http://ipipp.com/index.html"
session.get(source_url)
# 访问受限制的接口,设置Referer为来源页面地址
target_url = "http://ipipp.com/api/test_referer"
headers = {
"Referer": source_url
}
response = session.get(target_url, headers=headers)
print("状态码:", response.status_code)
print("返回内容:", response.text)
这种方式可以自动保存之前请求返回的Cookie,不需要手动拼接Cookie字段,更适合需要多步请求的场景。