发一段 Nginx 屏蔽各无效爬虫的配置上来,欢迎大家补充完善。

2018-09-10 20:30:17 +08:00
 nicoljiang

最近发现大量来自欧美的请求,高峰每秒 58 个请求里,有 52 个都是这些爬虫。

它们爬的速度快,范围广,又不能产出实际效益,完全可以屏蔽掉。

下面是我的配置:

if ($http_user_agent ~* "AhrefsBot|MJ12bot|hubspot|opensiteexplorer|leiki|webmeup") {
        return 403;
}

欢迎大家一起来补充完善:

  1. 各爬虫的关键词;
  2. 不同 Server 的配置。
6261 次点击
所在节点    程序员
23 条回复
buffge
2018-09-11 19:22:16 +08:00
@nicoljiang 我觉得你这是防蜘蛛,而不是屏蔽爬虫
nicoljiang
2018-09-11 20:54:51 +08:00
@buffge 不管是 Spider 还是 Crawler,实际上指的都是一类的东西。
mingyun
2018-09-15 19:12:43 +08:00
@longyujin9 header 里伪造的 ua 可以通过吗

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/487982

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX