爬虫放在 scrapinghub 还是会被 ban

2016-03-21 07:49:57 +08:00
 lbfeng

DOWNLOAD_DELAY 设置为 7 , COOKIES_ENABLED=False , rotate user agent 。不管用。 deploy 到 scrapinghub 上也只有前 100 个 request 可以。还有什么防 ban 的方法.

3687 次点击
所在节点    Python
6 条回复
binux
2016-03-21 07:53:07 +08:00
找 scrapinghub 客服
rebornix
2016-03-21 19:56:48 +08:00
scrapinghub 当然不管你是否被 Ban 啊,这个服务又不是管这个的。。。

他们会告诉你 用他们的 CRAWLERA
lbfeng
2016-03-21 21:23:59 +08:00
@rebornix 免费的果然不好使
rebornix
2016-03-21 22:23:37 +08:00
@lbfeng 主要还是看业务需求,他们提供 hosting ,避免被 Ban 要好好优化代码以及多 IP 。前者他们帮不了,后者还是可以做的,一门好生意。
hanbingtel
2016-03-25 06:31:43 +08:00
最好丢个测试地址,大家研究下哈!! 看是否能突破。
AceDogs
2019-02-13 13:45:34 +08:00
你要知道 scrapinghub 和你的爬虫被封没关系, 封禁可能是对方网站的策略问题, 你还是要考虑如果不被封锁, 他们也提供了一个牛逼的代理服务叫 crawlera,这个就是专门干这事的。当然不同的网站有不同的封禁的方案, 你还是看在代码中去好好控制一下的。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/265028

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX