记一次阿里云系统故障、工单处理、自行恢复和事后维权的完整经历

2019-12-17 12:57:08 +08:00
 nonfu

https://xueyuanjun.com/post/21336

7861 次点击
所在节点    云计算
58 条回复
ysoserious
2019-12-17 13:59:51 +08:00
难怪昨天一整天都打不开.
ysoserious
2019-12-17 14:00:24 +08:00
下午.
nonfu
2019-12-17 14:04:06 +08:00
@wunonglin 是的 这年头 连离职谈话都要多处备份
nonfu
2019-12-17 14:04:40 +08:00
@ysoserious 争取以后不再发生这种事情了
houzhimeng
2019-12-17 14:19:31 +08:00
被阿里坑过 2 次,果断选择云数据库
nonfu
2019-12-17 14:25:39 +08:00
@houzhimeng 公司产品的建议使用云数据库了
struggle001
2019-12-17 14:37:16 +08:00
@nonfu 作为一个渣渣运维分享自己的一些想法:
1.生产环境的数据一定不要放在系统盘上(虽然阿里提供的方法可用,但是有一定的风险)
2.数据放在数据盘(扩展盘)的前提下,定期对系统盘进行快照,如果出现类似问题,直接恢复快照,对数据不产生任何影响。也是分分钟恢复的事情。
3.数据库数据要定时进行 sql 备份,用 bash 写定时脚本,留一个月第一天的备份 1 和近 7 天的备份。如果有条件,可以考虑异地或者 pc 本地备份。

os 还是有一定几率会出现损坏的,或者说阿里的分布式存储出了问题,刚好影响你的系统盘(可能性很小)。所以切记不要放在系统盘数据。

我作为云厂商的运维,出现类似问题,因为没有阿里那套恢复快照到新购磁盘的业务逻辑,我会协助他们保存系统数据,之后重置,效率肯定要比阿里快 N 呗。不过小厂商很难混下去。
struggle001
2019-12-17 14:40:25 +08:00
@okwork 快照其实对云厂商很不友好,所以都有快照限制的。比如一个用户数据是 100G,打快照之后,所有的 100G 的数据都被修改过,那就额外占用了 100G,在加上 3 副本,实际占用我 600G 的空间。很坑啊。
nonfu
2019-12-17 14:46:23 +08:00
@struggle001 嗯 受教 我现在就是按照你这个思路在做的 定期快照+数据库备份 并且数据库备份多处存储 避免单点故障
struggle001
2019-12-17 14:48:24 +08:00
@nonfu 所以遇到一次问题 也挺好的。哈哈
nonfu
2019-12-17 14:51:56 +08:00
@struggle001 是的 不出问题总以为朗朗乾坤 天下太平 有些事情总是习惯拖着 😂
turi
2019-12-17 14:54:59 +08:00
6 个多小时 才 100 块钱

这套路不就是,一榔头加一个枣吗?

一小时 20 块不到,果然白菜价
ben1024
2019-12-17 14:59:28 +08:00
阿里云店大欺客的习惯
okwork
2019-12-17 15:00:29 +08:00
@struggle001 这个没办法了,快照都是增量的,永远胖下去的。瘦身的办法只好隔段时间重置后再新快照,幸好存储空间一般都不算太贵,胖就胖点吧
nonfu
2019-12-17 15:04:22 +08:00
@turi 其他的也没办法量化 之前所在的公司千万级流量 IDC 机房断电导致服务器宕机半天 最后也是不了了之了 跟他们扯皮他们有专门的律师团队 千儿八百块钱的事情也就懒得花时间去理会了
struggle001
2019-12-17 15:04:27 +08:00
@okwork 我公司内部用户用了我 20T 的 ssd 空间,x3 就 60T 了,我都要疯了,采购扩容中.....
天天和他斗智斗勇....
1239305697
2019-12-17 17:59:05 +08:00
大概意思是:磁盘出问题了,但是磁盘里的数据是正常的
这个算不算运气好,一般不是磁盘出问题了数据就也没有了吗。。
mmdsun
2019-12-17 18:51:18 +08:00
想起来 IT 之家 用阿里云期间各种崩溃和反应缓慢,最后阿里只陪了 1 天。

https://www.ithome.com/html/it/267407.htm
avenger
2019-12-17 22:06:06 +08:00
为啥不直接用 rds,ecs 上自建数据库风险很大,运行了一年的服务器你也敢重启…… 不能启动很正常,ecs 应该要做成无状态的,随时可以清掉重新部署。
a1274598858
2019-12-17 22:15:38 +08:00

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/629775

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX