爬虫放在 scrapinghub 还是会被 ban

2016-03-21 07:49:57 +08:00

lbfeng

DOWNLOAD_DELAY 设置为 7 ， COOKIES_ENABLED=False ， rotate user agent 。不管用。 deploy 到 scrapinghub 上也只有前 100 个 request 可以。还有什么防 ban 的方法.

3812 次点击

所在节点

6 条回复

binux

2016-03-21 07:53:07 +08:00

找 scrapinghub 客服

rebornix

2016-03-21 19:56:48 +08:00

scrapinghub 当然不管你是否被 Ban 啊，这个服务又不是管这个的。。。

他们会告诉你用他们的 CRAWLERA

lbfeng

2016-03-21 21:23:59 +08:00

@rebornix 免费的果然不好使

rebornix

2016-03-21 22:23:37 +08:00

@lbfeng 主要还是看业务需求，他们提供 hosting ，避免被 Ban 要好好优化代码以及多 IP 。前者他们帮不了，后者还是可以做的，一门好生意。

hanbingtel

2016-03-25 06:31:43 +08:00

最好丢个测试地址，大家研究下哈！！看是否能突破。

AceDogs

2019-02-13 13:45:34 +08:00

你要知道 scrapinghub 和你的爬虫被封没关系，封禁可能是对方网站的策略问题，你还是要考虑如果不被封锁，他们也提供了一个牛逼的代理服务叫 crawlera，这个就是专门干这事的。当然不同的网站有不同的封禁的方案，你还是看在代码中去好好控制一下的。

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.