各位亲们, 如何防止抓取网站时被屏蔽?

2015-10-06 18:16:03 +08:00
 zhizhongzhiwai
公司需要从第三方网站上抓取数据, 但是看网站说,如果抓取频率过高的话,会被屏蔽。
一般大家都怎么处理这样的问题的?
用 http 代理?
还是有其他更好的办法。
2321 次点击
所在节点    问与答
10 条回复
xfspace
2015-10-06 18:25:05 +08:00
目前好像就代理和降低频率两个方法,楼下的大牛可能知道更多
kn007
2015-10-06 18:26:39 +08:00
用代理。。
zhizhongzhiwai
2015-10-06 19:54:11 +08:00
@kn007 可是去哪里找那么多可用的代理 ip 呀
maemual
2015-10-06 19:54:57 +08:00
@zhizhongzhiwai 要么自己抓,要么上淘宝上买。。。
kendetrics
2015-10-06 19:58:41 +08:00
kn007
2015-10-06 20:01:57 +08:00
@zhizhongzhiwai 写个爬虫抓。具体的自己找。
zhizhongzhiwai
2015-10-06 20:08:10 +08:00
@kendetrics 像他们这种代理网站的速度如何? 这些代理稳定吗? 毕竟我们是公司的产品, 需要非常稳定的代理。
kendetrics
2015-10-06 20:48:50 +08:00
@zhizhongzhiwai 要稳定你还是去买多 IP 的 VPS 吧,或者拨号的 VPS 。。
crab
2015-10-06 21:08:37 +08:00
淘宝买个动态 ADSL 拨号的,被屏蔽就拨号下就有新 IP 了。用代理 IP 没什么保证的,就是可以用速度也一般。
tcsky
2015-10-06 21:32:52 +08:00
国外 vps 上跑 tor, tor 开 10-20 个端口, tor 本身 10 分钟会换次 ip,
被爬站点有 cdn 的话, 将请求分发不同机器上去.

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/225927

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX