大家都怎么防采集的?哪一种性能最高?

2017-05-18 19:49:39 +08:00
 tianxiacangshen
有不少站都有防采集,一般是 IP 和 cookie,还有 session (会员)

1、从 IP 入手一般限制某个时间段内访问的最多次数,超过则出现验证码,弊端是每次访问都要检测该 ip 的访问次数和执行判断

2、从 cookie 入手,较为简单,但是显然防守能力很差

3、从会员入手,页面只有会员才能访问(或者超过多少页面就必须会员才能访问),一个会员一天只能访问多少次,弊端也很明显

有没有更佳的方法?
6264 次点击
所在节点    PHP
44 条回复
8355
2017-05-20 23:02:44 +08:00
其实我觉得爬虫只要对你的服务器的正常浏览没有大的影响就用太过于关注它。除非它让你浏览猛增 你用你提的第一点限制一下就可以了。
akira
2017-05-21 20:55:26 +08:00
限制 ip 频次就足够了。 主要是防止有些低级爬虫爬的太凶,影响到正常用户使用。

至于说完全不允许采集,这个基本上是不可能的了,别想了。
silva
2017-05-22 13:39:20 +08:00
@lepture
@AllenHai
谢谢,明白了
kcer
2017-05-22 14:28:27 +08:00
@karia 哈哈哈哈哈

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/362301

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX