在要求登录的网站如何防止被封?

2016-06-10 21:07:46 +08:00
 omg21
爬虫在爬取网站时为了防止被封 IP ,可以使用代理、伪装 user agent 、降低访问频率等方法来避免被对方识别出来。
但如果对方是需要登录的网站怎么办呢?有些网站是必须在登录之后才能显示内容,那么在登录之后再使用代理、伪装 user agent 都已经没有了意义。
如果是这样的情况,应该怎样做才能不被对方识别呢?
3350 次点击
所在节点    Python
14 条回复
lizon
2016-06-10 21:12:50 +08:00
在要求登录的情况下,无论怎样,对方都可以统计单个 cookie 在单位时间内的访问量从而做出限制。所以,要么降低访问频率,要么获取足够多的 cookie
qqmishi
2016-06-10 21:13:25 +08:00
多注册几个号,过一段时间就切换
omg21
2016-06-10 21:53:09 +08:00
@qqmishi 收费网站,一个帐户一年好几千呢。
omg21
2016-06-10 21:54:45 +08:00
@lizon 是的,我也想不出更好的方法了,降低频率的话,每天的采集量根本没法完成。
murmur
2016-06-10 22:15:52 +08:00
好几千的采集。。在盗抄别人的资料么 那不得多投资一点 毕竟抄来就是免费复制了
eoo
2016-06-10 22:37:31 +08:00
看情况
lslqtz2
2016-06-10 22:58:10 +08:00
只能选择降低频率,别无他法。
因为账号要钱,要封号分分钟爽。
或者你可以试试看爆弱口令,但希望渺茫。。
lslqtz2
2016-06-10 23:06:12 +08:00
打 osu 打了一半,突然想到一个好点子,暂停时还 miss 了一个。。
可以把标题采集下来,不采集内容,当用户访问时实时采集并保存。
lslqtz2
2016-06-10 23:09:06 +08:00
一年可以换成月吗?非得年》
haozibi
2016-06-10 23:47:44 +08:00
目测某论文网站,某知
lizon
2016-06-11 06:02:43 +08:00
@omg21 转变下思路,如果确实有需要,不如联系下网站,看看能不能有偿提供你需要的东西
dynaguy
2016-06-11 10:32:57 +08:00
看到像樓主這樣厚顏無恥,然後被封 IP ,我只有 2333333333333
omg21
2016-06-11 14:15:00 +08:00
@lizon 看来也只有这样了
badcode
2016-06-11 23:53:53 +08:00
假想:你爬的站的站长也在看你发的贴?
有趣

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/284823

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX