关于硬盘和硬件 RAID 卡问题

2023-05-26 22:59:21 +08:00
 YongXMan

OP 目前在用 DELL R720XD 平台,H710p RAID 卡,插了 10 块盘,由于没有刷 IT 模式,好几块都是做的单盘 RAID0 ,ESXI 虚拟平台,其中安装了黑裙。

最近遇到过几次黑裙掉盘的情况,出问题的应该是其中一个单盘 RAID0 ,这个盘并没有直通给黑群晖,在黑群晖内核日志中看到的现象是其他所有的硬盘读写都报了 IO ERROR ,然后导致掉盘,存储池故障。移除这块“坏盘”后问题没有再出现。

有几个疑问:

  1. 把上面拆下的“坏盘”取下来用 DiskGenius 做了一次全盘扫描,并没有坏块,smart 信息没有发现异常,但在 ESXI 上读写这块盘的时候是有卡顿的情况,硬盘应该有点不正常,是 smart 信息不准确?

  2. 是否有可能是 RAID 卡故障,感觉不太可能,移除这块硬盘后就正常了,没有再出现掉盘的情况,感觉还是硬盘的问题。

  3. RAID 卡上的多组虚拟硬盘之间会互相影响吗,其中一块硬盘故障会影响其他所有的 RAID 组硬盘?如何会互相影响,这样感觉还不如全部直通然后通过软件 RAID 可用性高?

1319 次点击
所在节点    服务器
4 条回复
ryd994
2023-05-27 00:56:16 +08:00
1. smart 只是统计数据。硬盘故障前并不一定有预兆
2. 不一定,如果是这个端口坏了呢?
3. 正常来讲不应该。有可能是非企业硬盘没有 tler 。遇到坏扇区就长时间重试。

本来就应该刷 IT 。硬 raid 基本上属于历史遗留技术。
YongXMan
2023-05-27 07:35:18 +08:00
@ryd994 感谢回答。
1. 实际情况是发生过好几次故障导致其他盘读写异常,这些信息也应该被统计进去,事实上 smart 信息没有什么异常。扫描了 30 多小时没有发现坏块,是不是有可能是硬盘其他机械结构有问题?
2. 不是端口问题,更换过硬盘位,和盘位没关系。
3. 这块确实是家用普通 sata 盘,4T ,但是它影响到了其他的企业 sas 盘的读写了。
busier
2023-06-05 19:19:23 +08:00
考虑下 电源是不是用了多年 供电不行了
YongXMan
2023-06-05 21:02:51 +08:00
@busier 如果供电有问题,更换硬盘问题应该不会消失,现在情况是更换硬盘后问题没再出现

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/943320

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX