感觉,我可能发现了阿里云的一个秘密

2018-05-12 23:27:20 +08:00
 realpg

我维护了几十个公立医院的官方网站服务器……

它们都在阿里云

每个网站一个 ECS,每个网站独立账号,医院主体注册方便发票直接开给他们

所有网站附件都在七牛,静态资源都在 cdn 服务器,webserver 只提供动态内容

大部分都是单一 ECS,25Mbps 峰值带宽,按流量计费,预存一点钱,按流量计费,流量都很少,都是纯动态内容 少量医院不接受这种预存费之后消费开发票的,采用 5Mbps 带宽方式购买

大部分网站 5000~8000 个新闻动态输出的 HTML 页(超过一万就会删除一部分到归档数据 基本维持这个范围)

每个页基本净 HTML 文件大小 15KB-30KB

不知道从哪天起,我这里管理的所有阿里云的按流量计费的医院网站,都开始流量暴涨,以前 10G 流量包一般可用 5 个月,现在可用两天……

经过深入分析日志,所有的按流量计费的 ECS,都有大量的 UA 为 360Spider 的 bot,24 小时疯狂刷全站,每小时都把我的整站几千个新闻刷一遍……

而通过跟 360 搜索提供的资料比对,这些 BOT 的 UA 跟 360 官方 UA 不一致,且 IP 段不在 360 官方公布的爬虫 IP 段范围

它们的 IP 地址: 106.120.161.0/24 111.206.52.0/24 111.206.59.0/24 36.110.211.0/24

而我的这么多同样体量的医院网站里面,所有按带宽计费的都没出现这情况……

所以,我可能得出了一个可怕的结论:

避免被告索赔千万,算了,我啥结论也没得出,大家散了吧

25501 次点击
所在节点    程序员
131 条回复
zhantss
2018-05-13 01:30:10 +08:00
我该说,喜闻乐见?溜了溜了
flowersing
2018-05-13 01:36:18 +08:00
可怕啊
lshero
2018-05-13 01:55:40 +08:00
是不是网页有循环的链接,观察下日志里爬虫的访问路径
再看看 IP 对应的反向解析,不过 360 不像百度,所有的蜘蛛 IP 都配置了规范的反向解析记录
Kylin30
2018-05-13 02:02:30 +08:00
我觉得像阿里云这样的公司应该不会做这么 low 的事情
Immortal
2018-05-13 02:10:13 +08:00
保持和关注
RealGM
2018-05-13 07:28:01 +08:00
老周这是要......
badcode
2018-05-13 07:41:00 +08:00
可能我比较奇葩,
我个人的网站开始就屏蔽搜索爬虫!
因为看 log 发现这货不止一家
然后那些懂的人借搜索 bot 的 UA 做事
处理起来相当头大!
kokutou
2018-05-13 08:24:59 +08:00
有意思
hrong
2018-05-13 08:32:38 +08:00
taoluyun......(逃。。。
sobigfish
2018-05-13 08:55:48 +08:00
该不是友军伤害吧...(比如什么盾 什么监控之类的)
silencefent
2018-05-13 09:08:21 +08:00
@ponyxx 单页 10G/M 的大佬
qianmeng
2018-05-13 09:09:25 +08:00
没点套路还怎么赚钱? 我说的不是阿里
laudukang
2018-05-13 09:20:37 +08:00
mark
4357
2018-05-13 09:48:28 +08:00
mark
lsido
2018-05-13 09:58:23 +08:00
我也有这种情况,突然流量暴增,我还以为是 cc。升级之后永远没出现过了
moult
2018-05-13 09:59:08 +08:00
我才楼主是不是恒生芸泰的?
mydns
2018-05-13 10:00:58 +08:00
千万别按流量计费 这样你会破产的
dexterlei
2018-05-13 10:15:19 +08:00
跟百度卖搜索似乎一个套路呢... 让你存点钱,然后帮你消耗光...
realpg
2018-05-13 10:26:36 +08:00
2018.05.13 10:25
屏蔽了这些 IP 以后 又换了个 spider 来啦
换了 IP 换了 UA
134.73.7.0/24
"Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0); 360Spider(compatible; HaosouSpider; http://www.haosou.com/help/help_3_2.html)"

HaosouSpider 233333
realpg
2018-05-13 10:40:05 +08:00
@badcode #47
爬网站 打着搜索引擎的 UA 伪装很正常 没必要搭理他 内容都是公开的 不怕别人爬 也需要正常搜索引擎搜索
因为我这不是野鸡医院 都是二甲三甲的正规公立 都带官网认证 事业单位认证的那种 搜索引擎基本都带 V 的
一般黑的爬网站内容,也没有每小时高并发爬一次全站的吧……

@lshero #43
别欺负我没干过搜索引擎 毕竟在熊厂干过
而且真搜索引擎 spider 我这有独立日志,包括 360 的真 spider,都是新增内容过来爬一下,每个独立搜索引擎一天也就 500-2000 左右的访问,分摊到 24 小时内非常零碎


@sobigfish #50
各种监控的 spider 我都已经分开了 各种盾我都没搞过

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/454381

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX