有豆瓣的同事吗?想请教下豆瓣的反爬策略

2017-02-17 10:48:59 +08:00
 awolfly9

如题,能否有人剖析下豆瓣的反爬策略

14856 次点击
所在节点    Python
25 条回复
em70
2017-02-17 12:44:00 +08:00
豆瓣防盗链就是按频率的,白天一分钟超过 40 次就出验证码,晚上放宽到 60
tookbra
2017-02-17 13:43:10 +08:00
代理就能解决,邪恶点用 tor 就可以( ╯□╰ )
wmttom
2017-02-17 14:15:39 +08:00
以前做过的豆瓣抓取是,伪装真实浏览器 cookie ,每个 cookie 每分钟请求几十次,高频率容易被封 ip ,保持出验证码的低频多代理。然后出验证码都是英语单词,简单处理下背景,找个 OCR 接口一调,再做下单词纠错,自动提交验证码继续抓。
xrlin
2017-02-18 23:04:11 +08:00
我的 ip 也被拉黑了,今天用 pyspider 爬取一些豆瓣的一些信息拿来练习下数据分析つ﹏⊂
IanPeverell
2017-02-20 11:15:35 +08:00
可能会根据你的请求频率,短时间内请求数量,以及请求间隔是否有规律
所以我的想法是多代理,设随机不少于一定数值的延迟

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/341118

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX