阿里云公布故障原因,称将改进流程

2018-06-28 08:38:42 +08:00
 hpayton

昨日下午,阿里云出现故障,导致用户在访问阿里云官网控制台和使用部分产品功能出现问题。 阿里云表示,故障从北京时间 27 日 16:21 左右开始,到 16:50 开始陆续恢复。故障起因是上线一个自动化运维新功能时,执行了一项变更验证操作,触发了一个未知代码 bug,错误代码仅用了部分内部 IP,导致部分产品访问链路不通。 阿里云称,“对于这次故障,没有借口,我们不能也不该出现这样的失误!我们将认真复盘改进自动化运维技术和发布验证流程,敬畏每一行代码,敬畏每一份托付。”

官方声明: https://m.weibo.cn/status/4255687556823599?sudaref=login.sina.com.cn

正视问题,直面故障,这样的态度还是好的。希望好好改进,别开除程序员了(那个实习生的截图显然是造谣)

11008 次点击
所在节点    程序员
81 条回复
feverzsj
2018-06-28 09:27:19 +08:00
赔偿是不可能赔偿的,这辈子都不可能赔偿的
luban
2018-06-28 09:29:05 +08:00
这份道歉和彭蕾之前白领日记的道歉雷同
“没有借口,错了就是错了”
torment5524
2018-06-28 09:35:39 +08:00
我这边到晚上 7 点 oss 还是无法访问。中间就放羊了,到了 10 点多准备睡了,验证了下发现好了。
阿里敢贴出来最终的正常时间么?
geeti
2018-06-28 09:37:10 +08:00
@hahasong
@AlfredL
@laball
@Jimrussell
改不改赔偿用户协议里说的很清楚。去年二月 S3 挂了四个小时,半个美国的互联网全挂了,听说过赔偿或者诉讼吗?这种事事先已经从法律层面推脱的很干净了。
geeti
2018-06-28 09:43:02 +08:00
AWS:
13.3 Force Majeure. We and our affiliates will not be liable for any delay or failure to perform any obligation under this Agreement where the delay or failure results from any cause beyond our reasonable control, including **acts of God**, labor disputes or other industrial disturbances, electrical or power outages, utilities or other telecommunications failures, earthquake, storms or other elements of nature, blockages, embargoes, riots, acts or orders of government, acts of terrorism, or war.

阿里云:
8.4. 在任何情况下,阿里云均不对任何间接性、后果性、惩戒性、偶然性、特殊性的损害,包括您使用阿里云服务而遭受的利润损失承担责任(即使您已被告知该等损失的可能性)。
yippees
2018-06-28 10:07:38 +08:00
仅用 == > 禁用

一些客户==大量吐槽

操作失误?有 BUG,被触发算操作失误···
odirus
2018-06-28 10:09:45 +08:00
如果不用阿里云,真不知道用什么云了,目前直接使用了他家的很多服务。希望越做越好
Romanticlizhi
2018-06-28 10:13:26 +08:00
faker 说:当你失败的时候,说什么都是借口。
yolio2003
2018-06-28 10:15:51 +08:00
有的用就不错了系列
NotNil1
2018-06-28 10:21:19 +08:00
用脚投票啊,从阿里云迁出服务吧。
jennifertxwoodma
2018-06-28 10:23:42 +08:00
赔钱赔钱
yzmm
2018-06-28 10:33:48 +08:00
@odirus 最近 bat 三家的云都在年中促销,腾讯云送的优惠券加五折,我买 3 年 1.6w 的服务器打折下来才 2400。百度云一直以来都非常稳定、IO 都非常快,好像都是 SSD 折扣也不错。在一个就是 google 的 gae,台湾机房速度也是挺快的。
salmon5
2018-06-28 10:37:42 +08:00
我就想知道,阿里云不是造了 aiops 智能运维这个大轮子吗?这次 2 个小时的故障,aiops 可否一战?
odirus
2018-06-28 10:43:06 +08:00
@yzmm #32

百度云的话,不敢碰

腾讯眼的话,都称良心云,但无爱。

GAE 的话,可惜我们的用户都是大陆用户,TW 线路再快,也有被 Q 的时候。

一开始用阿里云,是因为喜欢他家的 RDS、DRDS,从 RAM 就看得出,RDS 应该是阿里云做得最好的组件之一。
odirus
2018-06-28 10:46:29 +08:00
以前大家都用传统 IDC 的时候,即使某些机房发生故障,至少来说影响不会那么明显,某个网站挂就挂了。云厂商就不一样,一挂就是一大片。

去年的 S3、今年的 阿里云,现在的云服务还在逐渐成长,但相对于传统 IDC 机房,已经很便捷了,只能说再接再厉吧。
fulingfan
2018-06-28 11:03:40 +08:00
迁移到 AWS 上
hpayton
2018-06-28 11:04:08 +08:00
赔偿问题可以看 SLA 吧,都内置在控制台了,没有必要说每出一个故障,都要新搞一个赔偿方案,那 SLA 干嘛用了
hacklele
2018-06-28 11:04:22 +08:00
本来就对阿里云没好感。这下我连到期都不想等了。想直接迁移走~~~ 感觉哪里都比套路云好
sgissb1
2018-06-28 11:05:21 +08:00
毫无诚意的申明,一贯的作风
opengps
2018-06-28 11:21:53 +08:00
大佬们,我在问与答节点的帖子不进入首页,欢迎关注这次阿里云故障中,应对方案的大佬围观留言我的反思贴:
[反向思考:阿里云这次故障里,有哪些措施面对故障发挥了好的作用?]( https://www.v2ex.com/t/466445)

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/466440

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX