最近遇到棘手的 Python 爬虫问题,爬取国外 octopart 网站的时候,总弹出 403 页面

2020-01-08 20:07:46 +08:00
 luzhizheng

不管程序怎么请求,总是会弹出 403 页面,出现谷歌验证码,切换请求头和代理,都没用,已经试过各种请求头和 cookie 参数,它的 cookie 感觉总是时刻变换,不知道从何下手. 期间我研究过他的 cookie 中一个参数的生成方式,也就是_px 参数,我发现他多次请求了链接,应该是收集了浏览环境参数,然后返回的_px 参数,尝试过直接拿下来请求,但也没用,最多请求个几次就又不行了 利用浏览器请求也试过了,一样报 403,也用过了 puppeteer 等一切的渲染浏览器,也注入了 js 代码,获取到了 cookie 参数也都没起作用,还是日常报 403,出现谷歌验证码,点图片的那种. 有哪位大佬遇到过类似的问题吗,求解!!

2775 次点击
所在节点    Python
1 条回复
Jerry1112
2020-01-13 16:52:46 +08:00
你这个爬取的具体页面是那个

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/636275

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX