Azure 挂了:云被雷击垮了;已持续 22 个小时

2018-09-05 17:54:25 +08:00
 1yndonn3u

微软公司的 Azure 公共云近日算是被真正的云搞垮了,因为该公司将周二导致美国用户无法正常使用几项服务的一起故障归咎于“恶劣天气”。

微软表示,位于得克萨斯州的美国中南部数据中心遭到了雷电风暴,结果散热系统出现了故障,迫使该公司关闭了许多服务器和系统,以防遭到更严重的损坏。

微软在 Azure 状态页面上的一份声明中表示:“美国中南部的数据中心附近发生了一起恶劣的天气事件,包括雷击。这导致电源电压升高,从而影响了散热系统。确保数据和硬件完整性的自动化数据中心程序立即生效,关键硬件进入了有条不紊的断电过程。”

开始故障时 Azure 状态页面甚至一度无法打开:

散热系统是现代数据中心的一个重要组成部分,因为散热系统是消除在一个封闭的地方紧密堆叠在一起的成千上万台服务器产生的高温所必不可少的。简而言之,如果这个系统出了故障,所有系统都将随之停运。

因此,如果温度上升到超过安全水平,像微软这样的公司落实了自动关闭数据中心机器的程序。这是保护微软数据中心投资的重要措施,但是对云客户来说也带来了很大的不便。

微软提到的恶劣天气很可能与飓风戈登有关,这场 1 级风暴目前正在得克萨斯州海岸的附近兜转。

微软表示,这起故障已影响了许多 Azure 云服务,包括 Visual Studio Team 服务。停运的其他服务包括 Azure Active Directory 身份管理服务和基于云的生产力套件 Office 365。

Visual Studio Team Services 小组补充道:“由于一些内部基础设施依赖 Azure 云服务,美国中南部地区以外的企业组织的客户所用的持续集成 /持续交付( CI/CD )工作流程和仪表板也可能受到了影响。”

专家们表示,这一事件向使用云服务的企业组织敲响了警钟:说到运行云端的关键工作负载,只有傻瓜才会依赖单单一家提供商。

Mimecast 有限公司的网络弹性专家彼得•班纳姆( Pete Banham )说:“今天 Azure 发生的事件再一次清楚地表明,企业组织需要做好自己的冗余机制,而不是依靠单单一家提供商。”

Constellation 研究公司的首席分析师兼副总裁霍尔格•米勒( Holger Mueller )表示,不过,该事件也给了希望避免将来发生此类事件的微软一个深刻的教训。

米勒说:“这次事件深刻地提醒人们,即使对于像微软这等规模的 IaaS 提供商来说,要保持数据中心正常运行有多难。闪电、洪水、飓风、大雪和暴雨都会影响数据中心的可用性。所以一个关键的问题是,微软从中汲取了什么教训?它如何在将来能避免类似的故障?这给了希望加强云基础设施的公司一个深刻的教训。”

在发布的最新消息中,微软表示它在努力使所有受影响的服务重新上线,不过截止本文发稿时,这项工作显然仍在进行之中。

微软表示:“工程师已成功地恢复了数据中心的电源。此外,工程师已恢复了大部分受影响的网络设备。虽然一些服务开始出现了恢复如初的迹象,但抢救工作仍在进行之中。”

文章来源:云头条 微信公众号

这个。。。不应该是多地域部署的么,还能出现这样的情况?

6323 次点击
所在节点    云计算
14 条回复
SilentDepth
2018-09-05 18:11:29 +08:00
所以为什么微软要研发海底机房 233333
FONG2
2018-09-05 18:16:51 +08:00
@SilentDepth 海底地震 海难
ddou
2018-09-05 19:06:24 +08:00
Mimecast 有限公司的网络弹性专家彼得•班纳姆( Pete Banham )说:“今天 Azure 发生的事件再一次清楚地表明,企业组织需要做好自己的冗余机制,而不是依靠单单一家提供商。”

冗余和单一 vendor 有什么关系?这位专家也不靠谱呀
1yndonn3u
2018-09-05 19:07:41 +08:00
@ddou #3 可能是说让使用 az 云的同学,也把一部分云服务部署在 aws 上吧,2333

比如,在国内,可能是一部分服务在阿里云,一部分在百度云吧 23333
timothyye
2018-09-05 19:11:45 +08:00
看了一下我东南亚的 azure,还好没事
opengps
2018-09-05 19:44:45 +08:00
仅仅是这个机房关闭吧,这其实就是同城灾备不够用的情况了,异地多活系统没有明显影响
怎么高可用,取决于系统设计,而不仅仅是软件放在某一个地方
rexyan
2018-09-05 19:50:53 +08:00
鸡蛋不要放在一个篮子里
loveour
2018-09-05 21:32:53 +08:00
@1yndonn3u #4 +1。其实每一家云服务商都出过问题,如果可用性要求特别高,还是要多家多地才行。
hcymk2
2018-09-05 21:58:20 +08:00
我是云,雷电是我的亲戚
qiuqiuer
2018-09-05 23:16:05 +08:00
还是研究冥界机房吧,地球上很危险
rajiha
2018-09-05 23:29:02 +08:00
前几天 MS 骨干网还炸过,丢包率 96 %
ryd994
2018-09-06 10:18:02 +08:00
不要方,主要是影响内部服务
一个数据中心好几个机房呢,挂的是一个机房
不在这个机房的客户 VM 也不受影响
天灾挂一两个机房一点都不奇怪
1yndonn3u
2018-09-07 10:14:11 +08:00
@rajiha #11 骨干网丢这么多,没办法使用了吧。持续的时间长的话,年度 sla 都不能达标了。


不过,反正也就是赔偿一些时长,对他们来说无所谓了。。
hpayton
2018-09-12 13:32:19 +08:00
@SilentDepth 海底机房更不成熟,海底离地震带更近,发生危险的概率更高

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/486481

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX