从调试到稳定抓取：一次 Python requests 反爬突破的完整记录

引言

很多数据抓取项目在本地试跑一切正常，一上真实目标站就频繁 403/429、页面返回空数据或重定向到验证码页。本文选择“Python 编程语言”为主题，分享我用 requests 对接某资讯站点时，从出现问题到稳定抓取的完整调试过程与关键实现，希望为你提供一套可迁移的方法论。

目标：按关键词抓取资讯搜索页的结果列表，并解析标题、链接和摘要。
初版方案：直接用 requests.get(url) 抓取 HTML 再用选择器解析。
现象：
- 第一轮能拿到部分数据，稍微加快频率后迅速被 403 Forbidden。
- 偶发 429 Too Many Requests，或被重定向到验证码页面。
- 相同 URL 在浏览器可正常访问，说明“请求特征”被识别为爬虫。

复现与最小化问题
- 保留最小请求参数，只打印状态码、关键响应头、是否被重定向。
观察指纹差异
- 对比浏览器与脚本：UA、Accept-Language、Accept、Referer、Cookie 是否缺失；是否启用了压缩；是否跟随重定向。
会话与 Cookie 持久化
- 使用 requests.Session 复用连接、自动携带 Cookie，减少“冷启动”特征。
标准化请求头
- 模拟常见浏览器头部，尤其是 User-Agent、Accept、Accept-Language、Referer、Cache-Control、Accept-Encoding。
限速与重试
- 对 429/5xx 实施指数退避重试；为连接错误配置 Retry；在成功-失败之间加抖动延时。
IP 维度治理（可选）
- 使用稳定代理池，遇到持续性 403 时切换出口；注意代理质量与合规。
动态内容与 JS 渲染
- 若页面主要数据由前端接口渲染，优先直连 API；实在需要可引入 Playwright/Selenium，但要评估成本。
合规与友好
- 尊重目标站 robots/ToS，设置合理频率与缓存，必要时申请正式数据接口。