google 爬虫太疯狂了,屏蔽它又没排名,放开又被爬死,还不能控制它的爬取频率,怎么办?

21 天前
 herozzm
google 爬虫爬起来真的就是 cc 攻击,以前的 google 的站长后台可以控制爬取频率,被下了,真是无语,在服务端 nginx 控制频率不理想,因为限制了 google 爬虫的频率,大部分时候是返回 502 ,google 站长后台就一直提示 502 ,不给排名
2308 次点击
所在节点    问与答
22 条回复
qqjt
21 天前
怎么能被 bot 爬死啊,这体量羡慕了
dzdh
21 天前
同问。啥体量能让 bot 爬死。啥服务器配置啊。
potatowish
21 天前
字节的 bot 才叫疯狂
daohanghao
21 天前
我都多来爬一下,你倒好,不需要。。。
herozzm
21 天前
@qqjt
@dzdh
数据是即时的,爬虫真的很疯狂,每秒估计有上百的并发
herozzm
21 天前
@potatowish 字节的反而不咋地,一天 10 个以内,流量根本没有
darkengine
21 天前
谷歌一秒上百次的爬?什么站这么牛啊 。。。
herozzm
21 天前
@darkengine 不是一个站,是几个站放在一台服务器,每个站 10 个左右,加起来的并发,他们共用 cpu 资源
HackerQED
21 天前
@herozzm 老哥,你考不考虑前端放 vercel 之类的托管平台,需要计算的再单独到你服务器?

托管平台总不会爬挂了,看你本体流量也不是很大,不费钱。
nomagick
21 天前
垃圾站是吧。。
AlexRoot
21 天前
@nomagick #10 感觉一语道破。
knva
21 天前
垃圾站能不能 414
wonderfulcxm
21 天前
没经历的哥们很难想象,它是真的会很疯狂,我们网站也经历过,只能限制速率,不要返回 502 ,返回 503 。就一个新闻网站,有编辑团队和纸版杂志,不是什么垃圾站,话说这跟垃圾站有什么关系?
rambeaufinal
21 天前
不能升级一下服务器的配置吗?
NewYear
21 天前
robots.txt 不是可以规定爬取频率么,实在觉得占用性能,搞缓存啊,静态化啊
herozzm
21 天前
@NewYear robots.txt 不行啊,我加入了限制,google 站长后台直接提示 robots.txt 错误,你是什么格式呢?
herozzm
21 天前
@wonderfulcxm 我将 503 改成 429 ,应该也没问题吧
e3c78a97e0f8
21 天前
搞个 cache 呗,每次 GoogleBot 访问都给几分钟甚至几小时前的结果,这 CPU 利用率就能降下去了吧。
linyongxin
21 天前
如果可以,生成静态化或缓存,减少数据库读取
kong0bbs
21 天前
在前面挂 1 个 cloudflare cdn 试试。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1046927

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX