20TB 的数据存储使用了 Raid0 硬盘有坏道了 我果然自作孽不可活

2016-07-21 00:08:30 +08:00
 notgod
20TB 的数据存储使用了 Raid0 硬盘有坏道了 我果然自作孽不可活

XFS 是个好文件系统,问题在于用它的人 比如我 够蠢.....
果然非专业系统工程师....

这事 学到的经验
1. 备份还是要有的,数据在大也需要考虑这个问题
2. 在考虑文件系统的性能时候 要自己记住什么文件系统 是不是有 meta 等依赖到外部去了
3. 如果选了 XFS,记住定时备份 metadata
4. 如果机器有问题 尽量在最小改动的前提下进行数据抢救,不要 R/W 任何数据 对硬盘造成二次伤害


完整记录见这里

https://blog.cnlabs.net/4749.html

排版乱 将就下看吧
14044 次点击
所在节点    Linux
68 条回复
xbb7766
2016-07-21 08:21:29 +08:00
Raid0...
不考虑性能的话 JBOD 也比 r0 靠谱点。。。
lucifer9
2016-07-21 09:07:11 +08:00
raid 几都挡不住不定时备份
loading
2016-07-21 09:07:32 +08:00
准备跑路吧
kn007
2016-07-21 09:08:52 +08:00
最后的结果还是好的,恭喜
BOYPT
2016-07-21 09:10:15 +08:00
思维问题呗,并不存在“浪费”,只是机会成本不一样。
aksoft
2016-07-21 09:10:18 +08:00
看头像进来的
Tourin
2016-07-21 09:14:27 +08:00
吓得我赶紧备份了下去。
ytmsdy
2016-07-21 09:14:50 +08:00
看了看自己 RAID 0 存储上的 600 多 G 数据感觉略微蛋疼。。。
ji1043
2016-07-21 09:18:23 +08:00
我那 2T 的数据盘已经躺尸扔家里了。。。看都不想去他。。。用了错误的办法恢复。。。你很幸运。。。
fetich
2016-07-21 09:22:53 +08:00
RAID1 并不是少了一半,楼主的方案会有 20TB 用于数据冗余。 RAID10 才是一半一半。
pein
2016-07-21 09:27:47 +08:00
讲道理 raid10 最好 安全性效率都有保证 就是要多花点钱
ChopinWong
2016-07-21 09:28:28 +08:00
@9hills 而且 raid5 可以设置好几块灾备盘吧我记得
realpg
2016-07-21 09:44:27 +08:00
@ChopinWong
灾备盘并没啥用
我见过太多的阵列损坏不可恢复(当然暴力恢复还是能找出来点东西的),别说 RAID5 , RAID6 RAID10 甚至四倍 RAID1 都有挂全盘的
大多就像楼上哪位朋友说的,不看磁盘信息,有 raid 就万事大吉了,很多时候一块隐患盘并不影响访问,如果是同批次的盘很可能有相同的隐患,最后集中短时间爆发
BOYPT
2016-07-21 09:47:33 +08:00
另外继续科普 RAID 5 不靠谱:

Raid5 Failure 并不都是因为磁盘故障,而是因为磁盘设计上有一个统计学上的 URE (unrecoverable read error)失败率,这个失败率只要低于额定值,这个磁盘就是完好的,然而对一个 raid5 阵列,一个读失败则是致命的;

在 raid 5 诞生的年代,这个 URE 概率标准对 100 多 G 的硬盘,这个概率尚可接受,但是随着磁盘容量增加,这个 URE 概率并没有随着而增加,因此对于一个 1T 磁盘,大概 10 多次全盘数据的量就会出现一次 URE 。
likuku
2016-07-21 10:10:05 +08:00
[统一型号的硬盘] 这个风险更大,若某型号盘出了缺陷 /特殊故障,整个盘阵都全完了

“不要把鸡蛋都放在同一个篮子里”

航空业典型例子很多,欧美有过因为某飞机只用一家厂商供应的某种型号发动机,当一次发动机严重故障后,所有使用这种发动机的飞机全部停飞,等待问题被解决。

后来吸取教训,研制新飞机时,要求新机可以兼容至少两家不同厂商的发动机(典型代表 空客 A320)
likuku
2016-07-21 10:11:51 +08:00
有条件的就上带冗余的 ZFS 吧,它的一些机制保证了数据(而非磁盘块)可靠性比很多中端所谓“硬件阵列柜”更可靠。
likuku
2016-07-21 10:17:24 +08:00
back blaze 在线存储服务商,他家前几年定期发布他们自己“存储海洋”的硬盘故障报告,可参考:

Hard Drive Reliability Update - Sep 2014 :
https://www.backblaze.com/blog/hard-drive-reliability-update-september-2014/
xcodeghost
2016-07-21 10:37:50 +08:00
我不到 50G 是数据库文件,都直接 raid1 了,敢用 raid0 都是胆大的人
wsy2220
2016-07-21 10:39:55 +08:00
6 盘 r0 ……
astome
2016-07-21 11:18:13 +08:00
删库跑路

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/293821

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX