在要求登录的网站如何防止被封？

爬虫在爬取网站时为了防止被封 IP ，可以使用代理、伪装 user agent 、降低访问频率等方法来避免被对方识别出来。
但如果对方是需要登录的网站怎么办呢？有些网站是必须在登录之后才能显示内容，那么在登录之后再使用代理、伪装 user agent 都已经没有了意义。
如果是这样的情况，应该怎样做才能不被对方识别呢？

lizon

2016-06-10 21:12:50 +08:00

在要求登录的情况下，无论怎样，对方都可以统计单个 cookie 在单位时间内的访问量从而做出限制。所以，要么降低访问频率，要么获取足够多的 cookie

omg21

2016-06-10 21:53:09 +08:00

@qqmishi 收费网站，一个帐户一年好几千呢。

omg21

2016-06-10 21:54:45 +08:00

@lizon 是的，我也想不出更好的方法了，降低频率的话，每天的采集量根本没法完成。

murmur

2016-06-10 22:15:52 +08:00

好几千的采集。。在盗抄别人的资料么那不得多投资一点毕竟抄来就是免费复制了

lslqtz2

2016-06-10 22:58:10 +08:00

只能选择降低频率，别无他法。
因为账号要钱，要封号分分钟爽。
或者你可以试试看爆弱口令，但希望渺茫。。

lslqtz2

2016-06-10 23:06:12 +08:00

打 osu 打了一半，突然想到一个好点子，暂停时还 miss 了一个。。
可以把标题采集下来，不采集内容，当用户访问时实时采集并保存。

lizon

2016-06-11 06:02:43 +08:00

@omg21 转变下思路，如果确实有需要，不如联系下网站，看看能不能有偿提供你需要的东西

dynaguy

2016-06-11 10:32:57 +08:00

看到像樓主這樣厚顏無恥，然後被封 IP ，我只有 2333333333333

badcode

2016-06-11 23:53:53 +08:00

假想：你爬的站的站长也在看你发的贴？
有趣

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/284823

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.