1
lyragosa 2014-06-09 10:45:06 +08:00 1
那些好的爬虫还会在agent声明自己的spider或者bot,屏蔽掉就是
有些无良爬虫直接写Mozlia/5.0 更无良的直接伪造一个标准的用户访问的agnet,根本没得破。 |
2
sanddudu 2014-06-09 11:47:15 +08:00 1
遇到 UA 伪造的话你可以通过分析 log 来找,一般他们的访问操作不会像正常的用户
|
3
iannil 2014-06-09 12:14:38 +08:00 1
自己写个程序分析流量,凡是流量异常的ip一律封掉24小时。
|
4
codingpp 2014-06-09 12:19:36 +08:00
我就是流氓爬虫,你破不了我的
|
5
webflier OP 又block了一家主机商,整个世界清静了。。。
目前block了online.net,datashack/WSI,hetzner |
6
imn1 2014-06-09 15:34:16 +08:00
能封掉的爬虫都不算流氓
|
7
dong3580 2014-06-09 16:03:02 +08:00 via Android
直接伪造成浏览器,各种该有的都有,你要怎么屏蔽?
|
8
mywaiting 2014-06-09 17:11:06 +08:00 via iPhone 1
计算访问频率,输出个reCAPTCHA验证码吧
|
9
humiaozuzu 2014-06-09 17:16:40 +08:00
@webflier 主机商ip段如何获得的呢?
|
10
xiaocsl 2014-06-09 17:26:01 +08:00 1
0.0 前段时间爬慧慧,表明是机器人.但自动的会限制访问频率.直接换成adsl,自动断线重连换IP.这也没法破哈..
|
11
greatghoul 2014-06-09 17:28:29 +08:00 1
|
12
tumutanzi 2014-06-09 20:10:44 +08:00 2
我用的是incapsula服务,CDN,然后就没有垃圾评论了。他们有专门应付垃圾爬虫的设置。
|
13
Lelouchcr 2014-06-09 21:09:36 +08:00
限制频率,多个ua,n个匿名代理,你破不了的~
|
14
webflier OP |
16
hanchengluo 2014-06-10 07:28:06 +08:00
|