新浪微博爬虫老是被封,换了 IP 和 cookie 也不行

2016-04-14 10:18:15 +08:00
 goodluck

这几天抓取新浪微博,每个请求随机一个代理,每半小时换一个账号,过了几个小时,立马几十个账号被冻结。很郁闷。。。有高手知道怎么对付新浪微博的反爬虫么?

9369 次点击
所在节点    问与答
19 条回复
bzzhou
2016-04-14 10:28:20 +08:00
> 每个请求随机一个代理,每半小时换一个账号

这种请求不封你才怪
shiny
2016-04-14 10:29:35 +08:00
抓的是 m.weibo.cn 还是 weibo.com
CheungKe
2016-04-14 10:38:29 +08:00
放慢速度。
看 robots.txt ,你这么做是违法的
ksc010
2016-04-14 10:43:06 +08:00
@bzzhou 是啊别换代理 减慢速度 一个帐号固定使用一个代理就行
每请求 n 次就暂停几个小时 然后换下一批帐号
hcwhan
2016-04-14 10:56:57 +08:00
主要还是每个账号一直换 ip 的问题吧 可以抓几次后 换账号的同时换 ip 每个账号 ip 不换
mfinal
2016-04-14 11:03:38 +08:00
经验之谈(仅针对 mobile 版):
微博的反爬虫还是很厉害的(阈值为:人点的太快都会 /sad )
高速状态下(多线程)数分钟就挂,低速的话(几秒 per resquest )一个账号可以持续数小时。
还是多账号延长冷却吧~

还是等高手作答
mapleray
2016-04-14 11:39:43 +08:00
告诉一个最简单的方法,用 google bot 的 header,频率控制好就行
UnisandK
2016-04-14 12:15:34 +08:00
同一个账号一直换 IP 你这不作死吗
badcode
2016-04-14 12:17:13 +08:00
@mapleray 想起也是*度,谷歌,屏蔽它们的 UA(spider),

它们会用"正常"的 UA 看一下,然后再用 spider 走一遍

看日志看 ip 知道的
goodluck
2016-04-14 13:19:07 +08:00
@shiny 我抓的是 weibo.com
goodluck
2016-04-14 13:20:09 +08:00
@CheungKe 感谢您,爬虫违法的这东西太虚,我不担心这个。
goodluck
2016-04-14 13:20:56 +08:00
@ksc010 我是每天计划抓 20 万用户的信息,慢速的不行,速度必须要快
goodluck
2016-04-14 13:21:34 +08:00
@hcwhan 好的,我试试您的方法。
goodluck
2016-04-14 13:24:30 +08:00
@mfinal 是的,我现在根据这几天的经验,猜测的是新浪的反爬虫不是实时的,没过 2 个小时左右的频率,新浪就会封一批账号,现在我在测是新浪的规则,目前来看,换代理的原因比较小,因为前几天我用一个账号不换代理也是 game over.
goodluck
2016-04-14 13:26:03 +08:00
@mapleray 感谢您的建议,第一次听说这个东西,我会尝试的。
goodluck
2016-04-14 13:27:20 +08:00
@badcode 厉害,这你都看得见。。。
msg7086
2016-04-14 13:29:58 +08:00
虽然可能性并不大,但是违规爬虫的话人家完全可以挖掘出你个人信息然后按照网络攻击什么的来起诉你。
theFool
2016-04-14 16:50:15 +08:00
最近也在爬微博, 很好奇 lz 代理是怎么来的。
我在网上找到的代理都被封了。
如果方便的话能指点下关键词吗。 谢谢。:)
goodluck
2016-04-14 22:12:58 +08:00
@shiny 请问你用的手机端,能不被封么?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/270944

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX