腾讯云的事,是不是很多人以为三副本就是备份,不应该丢数据,很靠谱....

2018-08-06 21:12:27 +08:00
 void1900

希望这些人不是后端或运维…

三副本都是同步的,一般只能避免磁盘损坏问题…

并不是你们以为的备份功能…


阿里云有云盘三副本的技术介绍

https://www.alibabacloud.com/help/zh/doc-detail/35108.htm

如果你还要咬着不放,我希望你转前端、客户端 ^_^

19628 次点击
所在节点    程序员
151 条回复
mhycy
2018-08-07 00:24:03 +08:00
@void1900
然而架构合理的情况下公告太不靠谱了...
所以...腾讯云依旧存在问题...

作为经历过各类云服务长毛事件的一代人(例如当年的 QQ 中转站)
我就没相信过任何云服务会可靠,数据在手才是自己的
提到的各种可靠性数字是一个字都不信的(没有单位,没有标准,作为广告都能算是虚假宣传)
云服务本身是否可靠,能否作为主业务节点,需要实际情况实际分析...
例如现在的各种负面...

另: 我关于是否选择云服务的看法可以看看这帖子的回复(#47 )
https://www.v2ex.com/t/476956
aliipay
2018-08-07 00:25:24 +08:00
@catror 你确定都没买吗?[手动滑稽] 不过说的确实比壁虎好中肯一些
void1900
2018-08-07 00:29:46 +08:00
@mhycy
确实就是这样

如果腾讯云靠谱最好是公布内部细节

那些跟风喷的要理性看待所有云的所谓可靠性

喷并没有意义
mhycy
2018-08-07 00:31:21 +08:00
@ryd994
能做块级存储集群的软件方案,不考虑读取写入校验是基本不可能存在的。
注意,要做到块级存储集群只可能是软件方案而不是硬件的 RAID 整列
能在各个计算节点互相飘的方案也只有走网络的 iSCSI 方案
(如果有别的方案希望给我科普一下,我实施过的只有 iSCSI )

RAID 保证 uptime 不保证数据这点没错,但考虑到上层软件冗余与纠错... 这锅还是甩不掉啊...
而且 RAID6 的情况下本来就自带有错误发现的能力(读取过程中两个结果互相对比)
于是... 锅还是甩不掉...
void1900
2018-08-07 00:33:04 +08:00
@ryd994 是有可能的 其实我想说的就是 三副本的技术方案并不是一般人认为的可靠的备份

它是有可能因为一块硬盘就出问题的,只是概率小
void1900
2018-08-07 00:40:30 +08:00
@mhycy 腾讯云确实只表示了固件 bug 是最底层原因 但是文件系统这块没有说明 ,锅应该是有的,固件 bug 可能只是遮羞布
OneNian
2018-08-07 00:41:12 +08:00
"对于每一个 Chunk,阿里云会复制出三个副本,并将这些副本按照一定的策略存放在集群中的不同节点上,保证您数据的可靠。"

我看到的重点是“不同节点”,这是单纯的 raid 吗?
ryd994
2018-08-07 00:41:38 +08:00
@mhycy 我只是提供了一种假说而已
解释你们之前说的三硬盘为什么能一起挂
腾讯云具体什么架构,只有他们自己知道

除了 iSCSI 还有 rdma 呢

关于 raid6,标准里似乎并不包含你说的读取中两个结果对比的功能。不然也不会有这篇论文了:RAID Architecture with Correction of Corrupted Data in Faulty Disk Blocks。raid 本身并不提供校验,因此纠正也无从谈起。如果你说的是非标准 raid,那 zfs 就是一例
void1900
2018-08-07 00:43:46 +08:00
@OneNian 软“ raid ”?

不同节点也不能保证校验或者同步机制一定没有 bug
ryd994
2018-08-07 00:44:39 +08:00
@OneNian 可以是,rdma 只要网络撑得住,除了多一个内网延迟,其他都和本地盘一样。
然后,现在都是 30G 50G 的网络
本来计算节点和储存节点分离就是这么玩的
mhycy
2018-08-07 00:53:45 +08:00
@ryd994
感谢科普!
RIcter
2018-08-07 00:59:13 +08:00
@lfzyx 腾讯是 T 吧
xanpeng
2018-08-07 01:22:25 +08:00
这个问题没什么好洗的,做存储的都知道,底裤是不能丢数据。
你可以数据离线一段时间不能访问,就是不能丢数据。
是说 9 个 9 的可靠性,理论上的确不是 100%,但...没必要拿这个理论极值来洗了吧。

至于其他的,那是其他问题(比如赔偿方式额度等,比如备份等),可以把讨论重点放到其他问题上,但逃脱不了这个事实:你丢数据了。

也没必要拿备份来洗。
客户本地备份了,是客户自己做的好。掩盖不了你云存储丢数据的事实。
客户没有备份,他们自己可以怪自己没备份,但你 tx 就不能怪他没备份了。毕竟他相信你云存储宣称的 9 个 9,毕竟他本地可能就没有数据中心。

拿单机硬盘来类比的就更可笑了,这么来洗的,要么是真不理解,要么就是故意了。本来云存储多副本就是要解决单机硬盘可靠性问题的。
xanpeng
2018-08-07 01:24:50 +08:00
另外拿硬盘静默数据错误来挡枪,也是不专业的。
tx 这样的大厂,静默数据错误怎么着也得解决了吧。阿里肯定是宣称解决的,tx 我印象里也这么宣称过,但不确定。
xanpeng
2018-08-07 01:31:01 +08:00
而且硬盘静默数据错误这个说法,十有八九是背锅的,真正错误原因没说出来。因为:
1、如果同批次硬盘固件有问题,丢数据的客户很可能不只这一家了。
2、如果真是硬盘固件问题,怎么准入的? tx 肯定用大厂硬盘的吧(不然就是自己作死,相关人得负责任了),大厂硬盘大规模出现类似问题的,没怎么听过吧。这次真是问题的话,这个锅妥妥地甩给硬盘厂商了吧。

真正原因应该是副本间一致性没做好。
kingme
2018-08-07 04:59:42 +08:00
多副本怎么就理解成了 RAID 了。。。。
qiukong
2018-08-07 06:15:09 +08:00
人家做网站的不懂你们这些技术,既然官网写有备份 99.99999999999%可靠性,人家就相信你们有备份了。出了问题该负责还是要负责的,除非霸王条款协议在先。
void1900
2018-08-07 07:14:18 +08:00
@xanpeng 开发的底裤是不是要谨慎?

存储一般也就是 raid,这里没人拿单机硬盘洗了。

固件问题,我自己都碰过,镁光的 ssd,算靠谱吧?时间门,5000 小时候会导致系统死机

准入问题,bug 能遇见就不叫 bug 了,这里不是说有 bug 才对,而是 bug 不可避免,程序员应该理性面对。
void1900
2018-08-07 07:14:40 +08:00
@kingme 希望你不要理解成备份
hjlmjx
2018-08-07 07:22:19 +08:00
不懂呢,就不要跟着瞎分析。现在又感觉是硬盘固件(硬盘 io 系统)坏了导致的?第一个,如果有备份机制,其它备份盘的固件同时都坏的可能性几乎为 0。第二个,如果是硬盘固件坏了,那么之前就不会出现一直好好的,而某一天突然坏了的情况。除非累计一直写入跟读取都是错误。
太搞笑了。此事腾讯估计解释不清楚了,稍微懂点儿基础的人都大概猜到,他们云备份机制有问题。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/477408

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX