硬盘损坏会有什么提示吗?

2021-07-17 00:45:40 +08:00
 Markxu0

硬盘在损坏的时候会有什么提示吗?

背景

将淘汰的台式机刷上了 PVE 系统,部署了几台虚拟机做开发用。 整套系统只使用了一块固态硬盘。

疑问

为了避免数据丢失,有考虑过买多块机械硬盘组件 raid. 但是确实从来没有把一块硬盘用坏过。 所以很好奇在 raid 中一块硬盘如果发生损坏时,我们如何能够感知到呢?

使用磁盘阵列卡还可以通过指示灯来观察运行状态;使用桌面系统的话,还可能会给个弹窗提示啥的,那我安装的无桌面 server 又如何知道硬盘需要更换了呢?

最后

大家自建的 7*24 小时服务器都是如何避免数据丢失的呢?

1983 次点击
所在节点    问与答
9 条回复
gefranks
2021-07-17 00:55:00 +08:00
我这边 LSI raid 卡的软件会弹对话框出来,说哪个盘挂了, 好像还能配邮件通知的
但是 windows 我记得也弹出来过 SMART 数据有错,尽早更换检查硬盘的提示, Windows Server 系统.
重要数据的就是备份,并经常验证备份数据的有效性,对可能发证的灾难做预案并演练应对手段.
HarveyLiu
2021-07-17 01:00:30 +08:00
没有,一般是参考国外著名的云存储厂商,每年的硬盘型号公开损坏率报告,选前十的型号购买即可,人家的采购量参考价值足够我们家用和小企参考了,硬盘损坏没有明显的预兆,软件测出来的数据也不是绝对。
azuis
2021-07-17 01:05:27 +08:00
可以通过 smartctl 命令检查硬盘 SMART 状态, 如果有测试项目数值异常的话它可以发现的。 可以自己写个脚本来发送邮件通知。
billlee
2021-07-17 03:02:30 +08:00
读取损坏的扇区时,会反复重试,表现为读操作卡住,最后会失败,系统调用返回 EIO, 内核日志记录 unrecoverable read error.

至于 smart, 只能检测出一部分错误吧。我手上坏了 3 块硬盘了,只有一块是先出现 smart 告警,然后出现读操作反复重试的问题。另外两块在报 ure 以后 smart 都还在报告正常。
fengchang
2021-07-17 05:52:54 +08:00
crab
2021-07-17 07:01:44 +08:00
会莫名其妙的卡
neteroster
2021-07-17 07:04:03 +08:00
避免数据丢失:备份。越多越好,放在不同的地方。
硬盘损坏的话,硬件 raid 不太了解,如果用 zfs 这类文件系统组 raid 的话,可以用对应管理工具查看状态。例如 `zpool status`,就会列出所有池中所有硬盘的状态,也可以设置邮件提醒之类的。
matrix67
2021-07-17 08:42:57 +08:00
@fengchang #5 昨天这边也看到的:

国外基本上你能想得到的互联网公司,都有服务状态查询、事故报告等等。
其中,让我印象最深刻的是两个:1 、Backblaze 定期发布的硬盘可用报告,让大家从侧面知道了硬盘的不可靠性,备份的重要性,以及选择一个好牌子的绝对性(吹爆 hgst )
514146235
2021-07-17 10:12:09 +08:00
一般来说硬盘不会直接挂掉。都是先从部分扇区开始有问题。
smartctl 每天做一次短测试,每月做一次长测试,有问题会自动邮件报告。

smartinfo 的指标有任何一个警告,直接就更换硬盘了。

并没有组 raid 。10 年+ 7x24 小时运行

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/790012

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX