收到的邮件:[QingCloud] 关于 2015 年 6 月 6 日青云 QingCloud 广东 1 区( GD1)机房电力故障的进一步说明

2015-06-07 19:44:52 +08:00
 gamexg

尊敬的用户:

因广东1区(GD1)所在IDC遭遇雷暴天气引发电力故障,昨天下午QingCloud广东1区全部硬件设备意外关机重启,造成QingCloud官网及控制台短时无法访问、部署于GD1的用户业务暂时不可用,对此我们深表歉意。现将事故完整过程报告给您:

13:48,我们收到GD1硬件及网络告警,并发现官网及控制台无法访问;工程师马上进行系统状态检查,发现GD1所有硬件设备出现重启;随即我们与GD1所在的IDC运营商沟通询问机房情况,同时排查其他可能导致设备重启的原因,并着手恢复管理服务(KS);其间,我们收到大量用户反映GD1业务中断;

14:08,操作切换DNS以恢复官网及控制台;

14:23,我们从IDC运营商处获知由于机房所在地区出现雷暴天气,机房因雷击引起UPS异常,机柜瞬时断电再加电,从而导致了青云的全部物理设备异常关机与重启;

14:38,GD1的管理服务恢复,Bots系统恢复,开始恢复用户主机;用户可以访问GD1资源;DNS完全生效,官网及控制台访问恢复;

15:15,内网DNS Server恢复;系统持续检查环境和帮助用户恢复业务;

16:19,GD1业务完全恢复,进一步检查后,于16:30分发布恢复公告。

本次严重故障从设备重启到用户业务恢复共耗时2小时31分钟,系统数据和用户的业务数据未出现任何丢失。

针对本次故障对您的业务造成的影响,我们对受影响的资源按照故障时间的10倍进行赔付,总共是2.5小时 × 10 = 25小时,赔付将以系统赠送的形式给大家进行发放。您可以在 充值记录页 进行查看。

再次,向您表示深深的歉意,也希望在您的支持和帮助下,不断提升我们的服务水平。 您也可以通过下述链接了解关于故障的更多细节。

关于2015年6月6日青云QingCloud广东1区(GD1)机房电力故障的详细说明
https://log.qingcloud.com/?p=924

青云QingCloud

2371 次点击
所在节点    站长
6 条回复
shiny
2015-06-07 20:23:30 +08:00
我倒觉得值得同一天宕机的 LeanCloud 借鉴
robinray
2015-06-07 20:25:11 +08:00
妈蛋,你们服务起来了,老子的服务冷启动用了一天
halczy
2015-06-07 20:55:02 +08:00
@robinray 什么服务要启动这么久?
wy315700
2015-06-07 21:01:41 +08:00
这才是大厂啊
kslr
2015-06-07 21:08:05 +08:00
做得不错
9hills
2015-06-07 21:59:55 +08:00
从详细信息看是机房防雷不过关

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/196746

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX