爬虫大佬进来,这个没验证码、不限制 ip、不混淆字符的网站能爬出来算我输

2020-03-20 10:01:30 +08:00
 kisshere

https://pixabay.com

这个站本来准备练练手写爬虫,却严重打击了写爬虫的信心,不限制 ip,没 captcha,你即使复制浏览器的所有 headers,服务器还是能直接一个 403 扔过来,但你用正常浏览器:chrome、Firefox 就能正常访问,这个用的什么反爬技术

10304 次点击
所在节点    程序员
81 条回复
hicdn
2020-03-20 23:48:27 +08:00
一个可以通过验证的最小参数的 curl 命令

curl 'https://pixabay.com/' -H 'Accept-Language: en' --tlsv1.3 -A curl

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/654469

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX