云计算无法消灭“误差”,运维裸奔是创业大忌

2018-08-07 15:40:38 +08:00
 huafang

夏日炎炎,闷热北京,宁可不见窈窕淑女,也不愿出门晒肉干,不见天空云朵,因为不敢抬头看太阳。

在热雷雨的天气里,云计算行业出现了一则小插曲,腾讯云趟上事儿了,还是一件纵有委屈、有口难辩的事儿。

一位叫做“前沿数控”的用户发文控诉腾讯云, 用了一个很吓人的标题《腾讯云给一家创业公司带来的灾难》,以创业者之名谴责腾讯云赔偿金额太少,并索要千万元赔偿。

看双方沟通过程,私下应该已经勾兑许久,但最终还是因为赔偿金额的分歧闹到台面上。看腾讯云的官方表态,还是希望尽可能帮助用户解决问题。但在帖子中“创业者”、“灾难”、“数据丢失”这些个关键词的引导下,业界还是掀起一片讨论。

纵览事情来龙去脉,我发现这事儿不复杂,搞了十几年互联网,啥事都遇见过,也用过各大云计算厂商的云服务器,同时,我也是苦逼创业者。从旁观者角度,我说说自己的一些观点,希望对大家有所帮助。

## 三副本策略不等于快照,云计算做不到零误差

我细看了一下“前沿数控”的声讨文章、腾讯云的官方声明,发现这事儿真的不复杂:一块操作系统云盘出现低概率的硬盘固件版本 bug,造成一部分数据丢失,腾讯云的文件系统专家已经帮助恢复了大部分数据,但部分数据无法修复,“前沿数控”认为腾讯云有“ 99.999999%的数据可靠性的三副本存储策略,认为腾讯云应该负全责。

三副本存储策略,成为焦点,在一些技术社区也展开了技术大讨论,然而,并没有出现云计算同行挤兑腾讯云,这是为什么呢?因为三副本存储策略是云计算行业的通用技术方案,各大云计算厂商都是这个策略,但谁也不敢保证零故障的可能性。

事件中的“前沿数控”,把三副本理解成万无一失的快照备份了,没有做本地备份,基本上属于运维裸奔状态。但是,云计算行业做不到零误差,这是人类世界的极限挑战,只能无限接近完美,却永远无法做到物理世界的零误差,腾讯云做不到,阿里云也做不到,AWS 也做不到。

快照,快照,快照,重要的事儿说三遍,三副本策略不等于快照,三副本策略是云计算厂商的底层系统,是云计算厂商工程师才能操作的数据层,快照才是云服务器运维的必备工具。无论是腾讯云,还是阿里云,都会强调三副本策略不同于快照,三副本不能替代用户的备份工作。

## 云计算不是万能上帝,Google 也难逃 0.000001%

纵然云计算为各行各业带来了云计算的技术福利,也确实降低了企业的创业成本,但是,剩下的 0.000001%的不确定因素是腾讯云不敢保证的,阿里云、AWS、微软、谷歌之中也没有一个敢保证。

说说 Google 的事儿,他们的比利时数据中心曾遇到四次闪电袭击电力设施,导致磁盘受损、部分云存储系统断线、数据丢失。Google 工程师对受损磁盘进行了努力修复,仍有不到 0.05%的磁盘未得到修复,丢失的数据仍非常非常地小,永久被删除的数据只占了该数据中心的 0.000001%。

今一月份,麦田音乐网在发文,因阿里云服务器崩溃,磁盘分区表损坏,自己存放在阿里云上的数据全部丢失。今年的 6 月 27 日,由于运维误操作,阿里云曾经出现过一次重大技术故障,时间长达 30 分钟,陆续恢复用了近一个小时,引发剧烈的行业讨论和用户吐槽。

七月份,腾讯云北京三区出现少量故障,而“前沿数控”这家企业的一块操作系统云硬盘恰好在列,确实挺倒霉的。

虽然各大云服务商的传播口径中都有关于 XX 个 9 的可靠性介绍,但是,就像物理学中的误差一样,这个数字只能无限接近于 1,谁也不能保证故障可能性为 0。

## 运维裸奔是大忌,同情“前沿数控”

无论是硬件不可抗力的故障,还是黑客入侵、意外删除,都可能带来系统崩溃,这个事件是“前沿数控”的惨痛教训。运维裸奔是创业大忌,用好云计算厂商的运维工具是创业必修课,我自己在用腾讯云的云服务器、RDS 和快照,做好数据库安全和云服务器数据安全。

“前沿数控”的技术负责人似乎没有运维经验,应该提前做好源代码、数据、静态附件的备份,如果你用了 RDS,恢复生产会更容易一些。“前沿数控”的遭遇源自于一块系统盘不可抗力 bug,更加说明了系统盘快照、镜像的重要性。

对于中小创业者,只需要用云计算平台的快照、镜像、本地备份,即可确保数据的安全性。以腾讯云为例,系统盘、数据盘都可以进行快照备份,目前快照服务是免费的,直到 2018 年四季度才开始商业化,用好快照,则可以备份、恢复不求人了。

过去,我也犯过运维裸奔的错误,吃过不少亏,现在比较老实了,老老实实做好数据运维和安全运维,才能减少系统性风险。虚拟主机时代,是服务器管理员帮你在代运维;云计算时代,技术更先进,自由度更高,但运维却需要自己来做,云计算厂商只提供一些现代运维工具,事实上,运维反而变得更加重要了。

## 云计算不是一劳永逸,技术合伙人是创业必备

“前沿数控”的这个事儿,说明了两点:1、云计算不等于零运维,云计算只是基础设施,不能忽视技术运维的重要性;2、不懂技术的创业者,必须有一个合格的技术合伙人。

只要干了互联网这一行,只要有网站、数据在运行,我们是永远要和漏洞、bug、黑客、备份、恢复等一大串关键词打交道。项目做得越大,越需要牛逼的运维人员,越会发现技术合伙人的重要性,并非把项目传到云服务器上就万事大吉。

未来的一切互联都将跑在云计算平台上,此时,创业者的技术思维不能停留在虚拟主机 Hosting 时代,不能给拖拉机装飞机发动机。

建议“前沿数控”这家公司开除技术负责人,寻找更好的技术带头人,重新规划和设计自己的技术运维路线,为未来发展打下好基础。希望这家公司的投资人,多一些包容,帮助创业者寻找技术合伙人,不要再出现运维裸奔了。建议理性索要赔偿金额,合理评估各方责任,避免在不合理金额的无休止争论中浪费时间,用科学方法评估,致力于解决问题,而不是问责。

希望腾讯云能够派出一名运维专家,去给这家公司的技术部门、领导层讲讲课,普及一下基础运维知识。

建议腾讯云推出一些高清视频课程,为那些不太懂运维的用户群体,做一些形象直观的官方教程,帮助比较小白的用户进行自学成长。

via 微信公众号 小芳侠

3466 次点击
所在节点    云计算
25 条回复
qiyuey
2018-08-07 15:48:06 +08:00
本章已看完,感觉并没有任何实质性内容
huafang
2018-08-07 15:50:58 +08:00
@qiyuey 技术大牛们可以直接略过
pinews
2018-08-07 15:51:51 +08:00
弃用腾讯云不是更好的选择?
huafang
2018-08-07 15:53:57 +08:00
@pinews 大厂的云计算,基础服务都差不多,阿里 google 都遇到过各种问题,也没少被骂
defunct9
2018-08-07 15:54:43 +08:00
运维不裸奔上什么云呢
zxdyb
2018-08-07 16:02:22 +08:00
“阿里云服务器崩溃,磁盘分区表损坏”,“由于运维误操作,阿里云曾经出现过一次重大技术故障”,
“七月份,腾讯云北京三区出现少量故障,而“前沿数控”这家企业的一块操作系统云硬盘恰好在列,确实挺倒霉的”,

这样的用词,感觉倾向性很强啊。
iwaifor
2018-08-07 16:07:26 +08:00
没啥内容啊,连个可参考的方法论的东西都没有
pinews
2018-08-07 16:08:28 +08:00
@zxdyb 我记得阿里云的确出了问题,但是数据最后恢复了,这家只是少量故障却无法恢复数据,除了用”倒霉”二字,还真不好用其他词形容,只是不知道是腾讯云倒霉,还是客户倒霉,谁倒谁的霉。
vimutt
2018-08-07 16:08:50 +08:00
快照如果坏了呢 又说快照不等同于运维备份 所以最该背锅的还是运维 让运维赔 1000w 吧
huafang
2018-08-07 16:11:33 +08:00
@vimutt 快照服务器一般是独立的,而且是定期快照,相对更安全
zapper
2018-08-07 16:12:46 +08:00
公关文吧
yeze322
2018-08-07 16:13:34 +08:00
线上事故不需付出高额赔偿,股价大跌会让你付出应有代价。

换成 AWS 或 Azure,敢多出几次这种事,分分钟钟被看空
huafang
2018-08-07 16:18:03 +08:00
@yeze322 google 出过类似事儿,如果事故规模大了,影响股价是必然的
cherryas
2018-08-07 17:18:47 +08:00
虽然是洗白文,但是确实其他几家( aws、阿里云)都出过丢数据的事情,腾讯云的事情不是首例,也不会是最后一例
LucasLee92
2018-08-07 18:00:45 +08:00
就不知道,其他几家对数据丢失后是如何处理的
annielong
2018-08-07 18:05:07 +08:00
技术上 bug 概率一定存在,XX 个 9 依然不能保证数据的安全,所以数据备份很重要。腾讯云出故障,该赔偿就赔偿,不过不能把锅全甩给腾讯
bofei
2018-08-07 18:12:21 +08:00
倾向太明显了 没看的价值
night98
2018-08-07 22:14:05 +08:00
v2 某些人水平也是可以的,技术这种事情本身就做不到百分百无 Bug,三副本是动态数据安全,快照才是静态数据安全,上云不代表运维裸奔,只是减少服务器运维成本而已,不要想太多。
qiuqiuer
2018-08-07 23:29:32 +08:00
这篇文章绝对是疼讯写的,中心思想表示:”这都是用户的错,没我们什么事”,建议疼讯开除这名产品经理,因为没有忽悠到我。
jimmyczm
2018-08-08 10:14:01 +08:00
软文,腾讯的错一笔带过,公司的错放大来看

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/477637

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX