腾讯云的事，是不是很多人以为三副本就是备份，不应该丢数据，很靠谱....

希望这些人不是后端或运维…

三副本都是同步的，一般只能避免磁盘损坏问题…

并不是你们以为的备份功能…

阿里云有云盘三副本的技术介绍

https://www.alibabacloud.com/help/zh/doc-detail/35108.htm

如果你还要咬着不放，我希望你转前端、客户端 ^_^

mhycy

2018-08-07 00:24:03 +08:00

@void1900
然而架构合理的情况下公告太不靠谱了...
所以...腾讯云依旧存在问题...

作为经历过各类云服务长毛事件的一代人（例如当年的 QQ 中转站）
我就没相信过任何云服务会可靠，数据在手才是自己的
提到的各种可靠性数字是一个字都不信的（没有单位，没有标准，作为广告都能算是虚假宣传）
云服务本身是否可靠，能否作为主业务节点，需要实际情况实际分析...
例如现在的各种负面...

另: 我关于是否选择云服务的看法可以看看这帖子的回复（#47 ）
https://www.v2ex.com/t/476956

aliipay

2018-08-07 00:25:24 +08:00

@catror 你确定都没买吗？[手动滑稽] 不过说的确实比壁虎好中肯一些

void1900

2018-08-07 00:29:46 +08:00

@mhycy
确实就是这样

如果腾讯云靠谱最好是公布内部细节

那些跟风喷的要理性看待所有云的所谓可靠性

喷并没有意义

mhycy

2018-08-07 00:31:21 +08:00

@ryd994
能做块级存储集群的软件方案，不考虑读取写入校验是基本不可能存在的。
注意，要做到块级存储集群只可能是软件方案而不是硬件的 RAID 整列
能在各个计算节点互相飘的方案也只有走网络的 iSCSI 方案
（如果有别的方案希望给我科普一下，我实施过的只有 iSCSI ）

RAID 保证 uptime 不保证数据这点没错，但考虑到上层软件冗余与纠错... 这锅还是甩不掉啊...
而且 RAID6 的情况下本来就自带有错误发现的能力（读取过程中两个结果互相对比）
于是... 锅还是甩不掉...

void1900

2018-08-07 00:33:04 +08:00

@ryd994 是有可能的其实我想说的就是三副本的技术方案并不是一般人认为的可靠的备份

它是有可能因为一块硬盘就出问题的，只是概率小

void1900

2018-08-07 00:40:30 +08:00

@mhycy 腾讯云确实只表示了固件 bug 是最底层原因但是文件系统这块没有说明，锅应该是有的，固件 bug 可能只是遮羞布

OneNian

2018-08-07 00:41:12 +08:00

"对于每一个 Chunk，阿里云会复制出三个副本，并将这些副本按照一定的策略存放在集群中的不同节点上，保证您数据的可靠。"

我看到的重点是“不同节点”，这是单纯的 raid 吗？

ryd994

2018-08-07 00:41:38 +08:00

@mhycy 我只是提供了一种假说而已
解释你们之前说的三硬盘为什么能一起挂
腾讯云具体什么架构，只有他们自己知道

除了 iSCSI 还有 rdma 呢

关于 raid6，标准里似乎并不包含你说的读取中两个结果对比的功能。不然也不会有这篇论文了：RAID Architecture with Correction of Corrupted Data in Faulty Disk Blocks。raid 本身并不提供校验，因此纠正也无从谈起。如果你说的是非标准 raid，那 zfs 就是一例

void1900

2018-08-07 00:43:46 +08:00

@OneNian 软“ raid ”？

不同节点也不能保证校验或者同步机制一定没有 bug

ryd994

2018-08-07 00:44:39 +08:00

@OneNian 可以是，rdma 只要网络撑得住，除了多一个内网延迟，其他都和本地盘一样。
然后，现在都是 30G 50G 的网络
本来计算节点和储存节点分离就是这么玩的

mhycy

2018-08-07 00:53:45 +08:00

@ryd994
感谢科普！

RIcter

2018-08-07 00:59:13 +08:00

@lfzyx 腾讯是 T 吧

xanpeng

2018-08-07 01:22:25 +08:00

这个问题没什么好洗的，做存储的都知道，底裤是不能丢数据。
你可以数据离线一段时间不能访问，就是不能丢数据。
是说 9 个 9 的可靠性，理论上的确不是 100%，但...没必要拿这个理论极值来洗了吧。

至于其他的，那是其他问题（比如赔偿方式额度等，比如备份等），可以把讨论重点放到其他问题上，但逃脱不了这个事实：你丢数据了。

也没必要拿备份来洗。
客户本地备份了，是客户自己做的好。掩盖不了你云存储丢数据的事实。
客户没有备份，他们自己可以怪自己没备份，但你 tx 就不能怪他没备份了。毕竟他相信你云存储宣称的 9 个 9，毕竟他本地可能就没有数据中心。

拿单机硬盘来类比的就更可笑了，这么来洗的，要么是真不理解，要么就是故意了。本来云存储多副本就是要解决单机硬盘可靠性问题的。

xanpeng

2018-08-07 01:24:50 +08:00

另外拿硬盘静默数据错误来挡枪，也是不专业的。
tx 这样的大厂，静默数据错误怎么着也得解决了吧。阿里肯定是宣称解决的，tx 我印象里也这么宣称过，但不确定。

xanpeng

2018-08-07 01:31:01 +08:00

而且硬盘静默数据错误这个说法，十有八九是背锅的，真正错误原因没说出来。因为：
1、如果同批次硬盘固件有问题，丢数据的客户很可能不只这一家了。
2、如果真是硬盘固件问题，怎么准入的？ tx 肯定用大厂硬盘的吧（不然就是自己作死，相关人得负责任了），大厂硬盘大规模出现类似问题的，没怎么听过吧。这次真是问题的话，这个锅妥妥地甩给硬盘厂商了吧。

真正原因应该是副本间一致性没做好。

kingme

2018-08-07 04:59:42 +08:00

多副本怎么就理解成了 RAID 了。。。。

qiukong

2018-08-07 06:15:09 +08:00

人家做网站的不懂你们这些技术，既然官网写有备份 99.99999999999%可靠性，人家就相信你们有备份了。出了问题该负责还是要负责的，除非霸王条款协议在先。

void1900

2018-08-07 07:14:18 +08:00

@xanpeng 开发的底裤是不是要谨慎?

存储一般也就是 raid，这里没人拿单机硬盘洗了。

固件问题，我自己都碰过，镁光的 ssd，算靠谱吧？时间门，5000 小时候会导致系统死机

准入问题，bug 能遇见就不叫 bug 了，这里不是说有 bug 才对，而是 bug 不可避免，程序员应该理性面对。

void1900

2018-08-07 07:14:40 +08:00

@kingme 希望你不要理解成备份

hjlmjx

2018-08-07 07:22:19 +08:00

不懂呢，就不要跟着瞎分析。现在又感觉是硬盘固件（硬盘 io 系统）坏了导致的？第一个，如果有备份机制，其它备份盘的固件同时都坏的可能性几乎为 0。第二个，如果是硬盘固件坏了，那么之前就不会出现一直好好的，而某一天突然坏了的情况。除非累计一直写入跟读取都是错误。
太搞笑了。此事腾讯估计解释不清楚了，稍微懂点儿基础的人都大概猜到，他们云备份机制有问题。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/477408

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.