爬虫大佬进来,这个没验证码、不限制 ip、不混淆字符的网站能爬出来算我输

2020-03-20 10:01:30 +08:00
 kisshere

https://pixabay.com

这个站本来准备练练手写爬虫,却严重打击了写爬虫的信心,不限制 ip,没 captcha,你即使复制浏览器的所有 headers,服务器还是能直接一个 403 扔过来,但你用正常浏览器:chrome、Firefox 就能正常访问,这个用的什么反爬技术

10281 次点击
所在节点    程序员
81 条回复
fenghuang
2020-03-20 11:45:10 +08:00
@haha370104 #40 确实是,用 fiddler 抓包还是跳到检测,难道是检测的证书?
iamfhd
2020-03-20 11:45:12 +08:00
大佬们就是厉害。。。。
kisshere
2020-03-20 11:46:14 +08:00
@fenghuang 这个感觉就是双缝干涉试验了,你不检测就返回正常 HTML,用 fiddler 一检测,直接就扔 recaptcha 验证了
monkeyWie
2020-03-20 11:50:37 +08:00
测试了一下,初步怀疑是 http1.0 协议的客户端直接被 pass,但是我用 curl 指定 http2.0 协议请求也是 403,但是验证肯定还是在 TLS 这层,不是 http 这层,估计 curl 和浏览器的 TLS 握手还是有区别的。
IGJacklove
2020-03-20 11:53:12 +08:00
@a494836960 这种到底犯不犯法?上次用浏览器插件爬了一次别人的视频,很慌。。。
scriptB0y
2020-03-20 12:05:45 +08:00
zzzmh
2020-03-20 12:14:23 +08:00
建议别爬了,直接申请 api
leetom
2020-03-20 12:25:40 +08:00
插个楼问一句
谷歌浏览器开发者工具,有没有 “清除当前网站 Cookies” 类似功能?只清除当前域名下的 Cookies
no1xsyzy
2020-03-20 12:29:18 +08:00
uMatrix 拉到全红页面显示不全但还是 200 OK
Postman,Chrome 版 200,但独立版也是 403
这个不太确定是否有关:
no1xsyzy
2020-03-20 12:30:26 +08:00
@leetom Application 选项卡,Storage -> Cookies -> 右键域名 -> Clear
ShundL
2020-03-20 12:33:43 +08:00
尝试在 charles 下抓完再复制 cURL,请求无效;在手机上用 stream 抓包直接弹验证码。

有点儿意思,关注学习中。
leetom
2020-03-20 12:35:50 +08:00
@no1xsyzy 谢谢!
不过这个还是不如在 Network 选项卡那里直接清除方便,搞不懂那里为啥只有一个清除所有 Cookies 的选项
vanton
2020-03-20 12:55:26 +08:00
tlday
2020-03-20 13:09:10 +08:00
去掉 RequestHeader 里面的 authority 头,然后加--tlsv1.3 就可以了
tlday
2020-03-20 13:26:30 +08:00
至于 Chrome 为什么可以发 authority 头。我这里没有同时支持 http/2 和 tls/1.3 的 curl,不知道加了--http2 和--tlsv1.3 的 curl 能不能加 authority 头。
FaiChou
2020-03-20 13:43:02 +08:00
brew tap bolmaster2/curl-openssl
brew install curl-openssl@1.1
/usr/local/opt/curl-openssl@1.1/bin/curl --tlsv1.3 ***
nifury
2020-03-20 14:00:21 +08:00
Delon
2020-03-20 14:58:12 +08:00
@ShundL cURL 直接请求无效,cURL 设置 Charles 代理无效,cURL 设置 Charles 代理 + MITM 有效,估计是 SSL 握手的问题,再 Charles 外面再设置一层代理或者 wireshark 直接对比应该可以看出来,懒得折腾了
no1xsyzy
2020-03-20 15:47:52 +08:00
@tlday 我这边默认 TLSv1.3 不行,结果加上 --tls-max 1.2 竟然可以了……
authority 是在哪?我闭着眼睛按 -v 都没有……
lqzhgood
2020-03-20 16:21:10 +08:00
F12 复制 curl 导入 postman 正常。。。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/654469

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX