ECS 无故被初始化... 阿里云到底想干嘛?!

2016-06-21 11:12:27 +08:00
 heat
今早 10:05 左右我的 ECS 在我没做过任何操作的情况下无故当机( SSH 无法登录),当机 2-3 分钟之后我选择从管理控制台重启,之后的 15 分钟系统都没有能启动起来(总是处于已停止的状态,点击启动之后还是已停止),于是我提交了工单。

接下来发生的事情真让人大跌眼镜,我的 ECS 启动起来了。当我登录的时候发现 SSH 指纹变了,我心想不好,结果 ECS 好像被初始化了一般,里边的所有文件,所有内容全部清空了,全!部!清!空!了!我问售后工程师,作何解释,然而没有人答复我。我不得不花了一些时间从新配置了一遍服务器让我的网站先可以运行起来。。。

然而直到现在也没有人给我一个合理的解释,为什么我的 ECS 被无故初始化了?!谁让你们在未经客户允许的情况下这么做的?
19065 次点击
所在节点    云计算
201 条回复
goodryb
2016-06-23 10:26:31 +08:00
@irainsoft 这是不同的概念,请先看下 136 楼连接中不同磁盘类型的描述。

云盘保证数据高可用性,本地磁盘不保证。
本地 SSD 是为了提供更好的 I/O 性能。用途不通。
finian
2016-06-23 10:31:40 +08:00
@goodryb 楼主的 ECS 被初始化了,但是楼主并不清楚为什么会被初始化(可能之前没遇到过这种情况),问客服也没有说出具体原因(注意这是重点好么),所以楼主得出「无故被初始化」的结论到底有什么问题?
goodryb
2016-06-23 10:32:00 +08:00
@dxwwym 不好意思,本来是分两次回复的,把你 @错了, sorry

数据备份是每个 IT 从业人员都应该做的事情,我非常同意。
lslqtz
2016-06-23 10:34:54 +08:00
@finian 没问题,不过后面加了客服表示是因为宕机了的说 = =
得出这个结论的确没问题
finian
2016-06-23 10:37:00 +08:00
@lslqtz 那是后面 append 的,所以他一开始得出这个结论完全是合理的
goodryb
2016-06-23 10:41:18 +08:00
@finian 的确,刚开始我也以为是阿里云坑爹了,不过看样子,工单还没处理完,楼主就急急忙忙来这里发帖子了,蛮心急的嘛,后面才搞清楚原因

我认真看完了这一百多个回复,所以才这样说,是基于整个事件来评论(我评论的时候楼主已经 append 了)
zaishanfeng
2016-06-23 10:53:19 +08:00
国内的服务你还想咋样 甩锅推诿是天朝特色。 我国外的独服小鸡一大把, 在我印象里一年从没有宕机, 除非我手动重启, 否则一直在 up 状态。 对了国外我也遇到了坑了, 尼玛最后一查竟然是国人开的, 国外主机远离饭桶及其母公司 psych..好像是这么拼的吧, 还有一个叫什么 globalfrag 还是什么的垃圾货色,也被他坑了, 尼玛最后一查还是天朝的跑国外祸害人去了,其实是武汉的一个小鸡吧公司
irainsoft
2016-06-23 11:29:42 +08:00
@goodryb 任何物理储存设备都不能保证永远正常,云盘可能自带了备份但它的物理储存设备也有可能在某一天忽然挂掉,家里用的机械硬盘和 SSD 都有挂掉的一天。阿里云的错并不是“没有让所有人都用上云盘”而是“在出现问题后直接采取初始化 ECS 这个措施”,我在阿里云的网站上确实看到了本地 SSD 有风险这点但是并没有看到阿里云会怎么处理风险的措施,也就是说出现了问题后阿里怎么操作有可能全凭工程师当时判断。

错的不是硬盘,是措施

上面吵起来的原因还是因为楼主和阿里云那个帐号在这贴里到现在没有明确讲楼主之前的数据究竟怎样了...
heat
2016-06-23 11:43:54 +08:00
@goodryb 你说的那么多,前提是我知道云盘的存在,知道云盘和本地磁盘的区别,并且知晓其中的风险。但是我并不知道。

我最早用阿里云的时候别说云盘,连 SSD 都还没有,后来上线了 SSD ,我把以前的 ECS 停掉了,专门买了一个带 SSD 的 ECS (就是现在用的这个),当时只有两种选择:普通磁盘和 SSD (那时候根本没有本地磁盘的概念,也自然没有你贴的那个磁盘差异化的产品文档,在当时我的眼里一切磁盘都是云盘),我购买 ECS 和 SSD 是在同一时间完成的,之后一直都是续费操作。接下来是重点:我购买的时候没有任何提醒说这个 SSD 磁盘有风险,后来所谓的云盘上线我也并没有收到过任何相关提醒说我使用的这个其实是本地 SSD 磁盘,会导致严重的问题。

我特地去查了一下我的消息中心,确实有这么一封广告邮件:

绿框你看清楚了吗?在当时,连阿里云自己都还在管这个所谓的「本地 SSD 磁盘」叫「本地 SSD 云盘」!

标题的问题 182 楼已经解释的很清楚了。你别轻描淡写的说什么工单没处理完,我心急。生产环境初始化过了好几个小时了,还没人给一个答案,换你不心急?如果是我对阿里云的新磁盘概念不够了解,他们的工程师也不了解吗?
goodryb
2016-06-23 11:47:15 +08:00
@irainsoft 我逐段回答

第一段:
链接我再发一下 https://help.aliyun.com/document_detail/25382.html
----
本地 SSD 盘

本地 SSD 盘来自实例所在物理机的本地存储。该类存储为实例提供块级别的数据访问能力,具有低时延、高随机 IOPS 、高吞吐量的 I/O 能力。

使用本地 SSD 盘,注意以下问题:

由于存储空间来自服务器的本地 SSD 盘,因此存在《单点故障》风险。建议在应用层做数据冗余,以保证数据的可用性。
订购后不支持 CPU 、内存、及本地 SSD 盘的升降配置。
-----


第二段
“也就是说出现了问题后阿里怎么操作有可能全凭工程师当时判断”,所有宕机迁移都是系统自动完成,并非工程师判断,要不然那么多 ECS ,光处理这个就需要多少工程师。。。。。

第三段
参考 186 楼我的回答


最后,其实从整体来看这个事情还是比较清晰的,只是局部理解上有问题。
goodryb
2016-06-23 12:01:27 +08:00
@heat 从文字描述上来说,这个通知的确是有纰漏,但是从语义上来看,这个通知已经明确的指明了 本地 SSD 盘和 SSD 云盘的根本区别,可靠性问题。

ps :另外,产品更新消息不算是广告邮件吧,当然,这个分类不重要,你开心就好。


既然你是老用户,对于产品的更新也是需要了解一下,毕竟是和自己紧密相关的事情, SSD 云盘去年 5 月公测,到现在一年多时间,楼主没有任何了解吗?如果是一样的东西,还有必要重复造轮子么

对于 ECS 重新初始化时出现的不可用问题,这个的确是阿里云的责任,你心急我能理解。不过我前面回复说的心急意思是 在工单没有处理完的时候,你得出(无故被初始化的结论),而不是说你在等待工单处理过程中心急,理解上可能有点偏差,在这里声明一下

最后,对于楼主数据丢失表示同情,同样作为 IT 从业者,能够理解这种事情的严重程度。但另一方面,数据备份的基本意识还是要加强,有备无患绝对是真理。
publicAdmin
2016-06-23 14:03:54 +08:00
@goodryb

redis 我们之所以没采用那 ecs 自行搭建的方式就是考虑到维护以及稳定性问题,然而现实始终是现实。

毕竟我们是小厂,引发点 redis 故障也无伤大雅,然而从我们的角度来看,正因为信任阿里云才选择把整套系统放在阿里
云。既然我们选择的是你厂所谓的云生态中提供的 redis 服务,而非自建服务,也是处于信任承诺,然后把整个系统核心组件交于你们,然而事实并非承诺中描述的如此美丽,赤裸裸的打脸。

那是我们的线上生产环境,里面存有用户 token 及一些涉及到用户资金计算的热点数据等等。就被你们一个误操作清空了,导致用户无法正常登录以及系统核算用户资金异常,这个锅真心太大了。
这对一个创业公司来说除了看得见的损失可以所谓的预估索赔,然而那些看不见的损失才是致命的,好吗?

--------


所谓的客户经理还是啥的 1v1 跟进,告知故障原因系工程师误操作,问了下存储的是什么数据,然后让我们核算下损失上 报,同时工程师还在尝试恢复(然而好像是徒劳?)

上报我们预估的经济损失后,得来的回复也是搞笑。给我们”一张现场参加互联网大会的门票“。 2333333


--------

宣传承诺固然重要,但是宣传了,让用户选择了你,就是用户对你的一种信任,请不要这样如此随意的践踏,好吗?

现在创业公司选择阿里云平台的数不胜数,或许就因为一场你们看似不起眼的生产事故,导致了别人公司全盘业务的

覆灭,这锅真心很大。
zhuce
2016-06-23 14:06:23 +08:00
@goodryb 呦,不告状啦?那么懒不还是回复了一条…… 玻璃心就别装有境界
goodryb
2016-06-23 14:11:41 +08:00
@publicAdmin 首先声明,这里只讨论楼主帖子提到的问题,你所说的问题 redis 我不清楚,我也不了解,我前面一次回复已经说明,如果是阿里云的锅,我支持你找他索赔,甚至是通过法律手段都可以。但没有必要在这里继续下去,所以接下来也没必要在就 redis 的问题在这里讨论。

用户和厂商是有合同缔约关系,谁的问题谁负责。我只是客观的看待这个 ECS 问题

另外,我!=阿里云,所以请陈述的时候 避免使用你厂,你们等字眼,以免混淆产生歧义
publicAdmin
2016-06-23 14:17:43 +08:00
@goodryb
喔,抱歉。我看小哥如此热心肠,就顺带倒了点苦水出来,针对 #192 楼使用到一些产生误会的字眼表示抱歉。

- -我的过,把楼主的帖子歪楼了。

( ps :话说回来为何每次阿里云和用户有关的生产事故发生都会一起围观,我觉得也该反思反思下的)
wizardforcel
2016-06-24 13:03:41 +08:00
云主机还有“本地盘”,简直笑尿。
strahe
2016-06-24 21:58:55 +08:00
@binux 你这个理由成立,可以的,小伙子.
king110
2016-06-27 12:02:02 +08:00
派来洗地的人果然强大
realpg
2016-07-03 17:33:02 +08:00
@gefranks
这种云跟硬件托管的区别就是这种云会丢本地盘数据
托管我都没丢过……
基本托管机至少是 RAID10 的本地盘,单点故障马上就替换了
gefranks
2016-07-03 18:45:20 +08:00
@realpg 反正我觉得打着云旗号提供商用的还丢全部数据的是属于设计上的缺陷。我自己家里用的机器都会考虑这一点

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/287253

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX