V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
Markxu0
V2EX  ›  问与答

硬盘损坏会有什么提示吗?

  •  
  •   Markxu0 · 2021-07-17 00:45:40 +08:00 · 1983 次点击
    这是一个创建于 1226 天前的主题,其中的信息可能已经有所发展或是发生改变。

    硬盘在损坏的时候会有什么提示吗?

    背景

    将淘汰的台式机刷上了 PVE 系统,部署了几台虚拟机做开发用。 整套系统只使用了一块固态硬盘。

    疑问

    为了避免数据丢失,有考虑过买多块机械硬盘组件 raid. 但是确实从来没有把一块硬盘用坏过。 所以很好奇在 raid 中一块硬盘如果发生损坏时,我们如何能够感知到呢?

    使用磁盘阵列卡还可以通过指示灯来观察运行状态;使用桌面系统的话,还可能会给个弹窗提示啥的,那我安装的无桌面 server 又如何知道硬盘需要更换了呢?

    最后

    大家自建的 7*24 小时服务器都是如何避免数据丢失的呢?

    9 条回复    2021-07-17 10:12:09 +08:00
    gefranks
        1
    gefranks  
       2021-07-17 00:55:00 +08:00
    我这边 LSI raid 卡的软件会弹对话框出来,说哪个盘挂了, 好像还能配邮件通知的
    但是 windows 我记得也弹出来过 SMART 数据有错,尽早更换检查硬盘的提示, Windows Server 系统.
    重要数据的就是备份,并经常验证备份数据的有效性,对可能发证的灾难做预案并演练应对手段.
    HarveyLiu
        2
    HarveyLiu  
       2021-07-17 01:00:30 +08:00 via Android
    没有,一般是参考国外著名的云存储厂商,每年的硬盘型号公开损坏率报告,选前十的型号购买即可,人家的采购量参考价值足够我们家用和小企参考了,硬盘损坏没有明显的预兆,软件测出来的数据也不是绝对。
    azuis
        3
    azuis  
       2021-07-17 01:05:27 +08:00
    可以通过 smartctl 命令检查硬盘 SMART 状态, 如果有测试项目数值异常的话它可以发现的。 可以自己写个脚本来发送邮件通知。
    billlee
        4
    billlee  
       2021-07-17 03:02:30 +08:00
    读取损坏的扇区时,会反复重试,表现为读操作卡住,最后会失败,系统调用返回 EIO, 内核日志记录 unrecoverable read error.

    至于 smart, 只能检测出一部分错误吧。我手上坏了 3 块硬盘了,只有一块是先出现 smart 告警,然后出现读操作反复重试的问题。另外两块在报 ure 以后 smart 都还在报告正常。
    fengchang
        5
    fengchang  
       2021-07-17 05:52:54 +08:00   ❤️ 3
    crab
        6
    crab  
       2021-07-17 07:01:44 +08:00
    会莫名其妙的卡
    neteroster
        7
    neteroster  
       2021-07-17 07:04:03 +08:00 via Android
    避免数据丢失:备份。越多越好,放在不同的地方。
    硬盘损坏的话,硬件 raid 不太了解,如果用 zfs 这类文件系统组 raid 的话,可以用对应管理工具查看状态。例如 `zpool status`,就会列出所有池中所有硬盘的状态,也可以设置邮件提醒之类的。
    matrix67
        8
    matrix67  
       2021-07-17 08:42:57 +08:00
    @fengchang #5 昨天这边也看到的:

    国外基本上你能想得到的互联网公司,都有服务状态查询、事故报告等等。
    其中,让我印象最深刻的是两个:1 、Backblaze 定期发布的硬盘可用报告,让大家从侧面知道了硬盘的不可靠性,备份的重要性,以及选择一个好牌子的绝对性(吹爆 hgst )
    514146235
        9
    514146235  
       2021-07-17 10:12:09 +08:00
    一般来说硬盘不会直接挂掉。都是先从部分扇区开始有问题。
    smartctl 每天做一次短测试,每月做一次长测试,有问题会自动邮件报告。

    smartinfo 的指标有任何一个警告,直接就更换硬盘了。

    并没有组 raid 。10 年+ 7x24 小时运行
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   972 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 20:20 · PVG 04:20 · LAX 12:20 · JFK 15:20
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.