AI 爬虫真是太凶残了

99 天前
 majula

今天突然收到 VPS 流量即将耗尽告警,心想我一个没什么内容,好几年没更新的个人小破站怎么也有人 D

控制台一看,发现从月初开始,带宽使用直接从 0.2 Mbps 翻倍到稳定 2 Mbps 左右,然后在十几号的时候又涨到 3.5 Mbps ,今天直接到了 4.5 Mbps

登上服务器分析了下流量,发现罪魁祸首是个 AI 爬虫,反复不停地拉取站上所有资源

UA 类似这样的:

Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; ClaudeBot/1.0; +claudebot@anthropic.com)

本来以为有 Cloudflare 这种情况能缓解。我的个人站只搭了一个 Gitea 服务,然而 Gitea 目前的缓存策略对 CDN 并不友好,几乎所有请求都需要回源。

折腾了一下没有找到简单方法可以让 CDN 缓解服务器压力,于是配了个 Cloudflare WAF 规则把这个 UA 禁了,带宽消耗直接回到月初水平。感觉之后可以整一个蜜罐,见到这种直接给他投喂一些胡说八道的东西

另外我还发现,这个爬虫不会命中 Cloudflare 自带的 AI 爬虫拦截规则(至少目前免费方案下是这样的)


搜了下,发现也有很多人遇到类似的问题。如果你们最近也遇到 VPS 流量暴增的情况,很有可能就是这玩意干的。

不过随着越来越多的人开始屏蔽 AI 爬虫,估计很快它们就会开始伪装成普通用户了,识别起来会变得困难

4227 次点击
所在节点    云计算
5 条回复
Fdyo
99 天前
写死在 robot.txt 中呢?
dawn009
99 天前
“多爬点,我的观点就会有更多权重”
lynnharry
99 天前
不清楚真是 Claude 的爬虫还是别人借用的 UA ,按理说只是 Claude 的话,爬一次就结束了吧?
potatowish
99 天前
Claude 封我的号,不让用它的 AI ,还疯狂爬我的内容,我直接 ban 。伪装 UA 的多数会用谷歌的爬虫
lisxour
99 天前
@Fdyo 这种爬虫哪会管你规则

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1060422

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX