被 Google 爬虫攻击了

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

› Google Play

› Google Fi

› Google Developers Channel

› Google 全球透明度报告

› 9to5Google

这是一个创建于 3660 天前的主题，其中的信息可能已经有所发展或是发生改变。

搬瓦工的一个乞丐版 VPS ，每个月 200G 流量一直够用的，自从上个月 IP 被 X 换了个机房之后，流出流量一直居高不下，想着每秒 1MB 多一点就算了， 200G 让它去爬，反正我也用不了。没想到昨晚想 Google 找点东西，等了好久都上不去，本地 ping 一下无响应，第一反映不是又被 X 了吧？换个墙外的 IP 再次 ping 了下，还是没反应。登录 VPS 控制面板看了下，超流量被挂起。

看了下挂起之前最后的流量记录，已经超过 2M 每秒， 200G 已经用到了 200.16G ， Google 这东西每天都要用，不能没有，于是想着是换一个 VPS 还是升级套餐，看了网上各家 vps ，最后决定还是升级 VPS 套餐靠谱，补足了剩下几个月的费用之后升级到了 300G 的套餐。

恢复之后第一件事就是把那个该死的 Google Bot IP 给 deny 了！

这是在 Nginx 上 deny 之前的截图：
Google-bot

deny 之后的截图：
deny-google-bot

话说， Google 这爬虫怎么比灵丹妙药还见效，我刚 deny 了一个，一下子又来了 3 只！

我就一小小的博客，上面 10 篇文章不到， robots.txt 这么写的：
User-agent: * Allow: /p/ Disallow: /
他没事爬这么勤快干嘛，它 Google 流量不用钱，我烧不起啊。

我这小博客就靠 Google 导流量，把它完全 deny 我又舍不得。

怎么处理它更好？

第 1 条附言 · 2015-12-07 11:39:52 +08:00

找到原因了，反代的 Google 被 Google 抓取了，反代的那个域名 nginx 配置文件加了这一行解决了：
if ($http_user_agent ~* (baiduspider|googlebot|soso|bing|sogou|yahoo|sohu-search|yodao|YoudaoBot|robozilla|msnbot|MJ12bot|NHN|Twiceler)){ return 403; }

15 条回复 • 2015-12-07 15:57:30 +08:00