这种爬虫是不是无解?

2017-05-06 10:07:09 +08:00
 woshinide300yuan

http://wx1.sinaimg.cn/large/7e8b4ac8ly1ffbewcp4wrj20wl0d50y1.jpg

问题来了,这么写 if ($http_user_agent ~ "Mozilla/5.0" ) { return 403;
}

是不是所有 Mozilla/5.0 都进不来了。

不会不懂了,请 dalao 明示,嘿嘿,谢谢,周末愉快~

11469 次点击
所在节点    NGINX
62 条回复
popu111
2017-05-06 23:12:53 +08:00
@SlipStupig "会花很长时间调试从而增加对方的痛苦值",这也太狠毒了点。。。
632333300
2017-05-06 23:14:40 +08:00
哦呵呵
murmur
2017-05-06 23:15:15 +08:00
@zhs227 真是浏览器就跳验证码啊,google 不经常怀疑你是机器人
lk1ngaa7
2017-05-06 23:53:36 +08:00
基于 ip 频次的惩罚式封禁
xiongbiao
2017-05-07 00:52:15 +08:00
吐点脏数据
lightforce
2017-05-07 01:01:36 +08:00
如果要精确,只有靠 cf,aka 这种 cdn 的大数据,你自己判断总有失误的时候
我是最近总有啥 b 扫 dede 的漏洞,尝试 post 注入 plus 目录下的文件。。。我也是醉了
jarlyyn
2017-05-07 02:11:55 +08:00
@SlipStupig

我说的是对付你那 1000 个老黑
SlipStupig
2017-05-07 06:39:16 +08:00
@jarlyyn 那已经不是反爬虫了,你成了挂马网站了.....
herozzm
2017-05-07 08:15:11 +08:00
爬虫会自动从各种 UA 和 ip 代理池中随机挑选一个,你的方法无效,至于密罐无法应对精准采集,会跳过蜜罐的
zjqzxc
2017-05-07 09:53:56 +08:00
如果想完全屏蔽爬虫,页面内容都通过 ajax 异步加载进去
mingl0280
2017-05-07 13:41:03 +08:00
iptables -A INPUT -p tcp --dport 80 -m state --state NEW -m recent --update --seconds 30 --hitcount 10 --rttl -j DROP
mingl0280
2017-05-07 13:42:12 +08:00
@lightforce 我那个人搞的没啥卵用连后台都没有的网站天天被各种爬虫和攻击工具扫……你这还算好的了……
bombless
2017-05-07 16:12:38 +08:00
感觉常见手段就是出验证码了。能在 iptables 断下自然是最好的
woshinide300yuan
2017-05-07 20:40:02 +08:00
@mingl0280 这防火墙规则是干啥滴?
mingl0280
2017-05-07 22:38:23 +08:00
@woshinide300yuan 80 端口新建连接限制 30 秒内 10 个连接,否则丢包。
woshinide300yuan
2017-05-07 23:26:53 +08:00
@mingl0280 哇哦。66666
gladuo
2017-05-08 00:21:25 +08:00
暴力点,1 个 ip 1h 就只能访问 50 次,超过了,就拉黑 IP 3h,期间页面正常渲染,重要内容转换为乱码
8355
2017-05-08 02:42:46 +08:00
我自己的经验就是建议你不要限制 UA,其次只要限制 ip 短时间内的访问量即可,不要限制全天多少。因为我们之前公司项目做测试的时候 如果你的项目定向流量很大,那么很容易误伤很多正常流量,比如说有很多免费的公共 WIFI 比如公车 地铁上的 wifi ip 都是固定几个 这样的话就会造成很多自然日很多合法流量被禁止。所以只要访问量不对你服务器进行大量冲击 采集就采集吧。
XiaoFaye
2017-05-08 11:26:50 +08:00
@ddd2500 有些网站你不开 JS,内容根本就出不来。。。
woshinide300yuan
2017-05-08 12:00:20 +08:00
@gladuo 那蜘蛛呢大哥哥?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/359511

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX