各位彦祖早上好中午好晚上好
实验室的服务器
具体硬件是:
硬盘型号:ST14000NM001G 13TB x 12 块盘 做了 raid 5 ,raid 卡是 MegaRAID SAS 9364-8i ,总大小为 114TB 。 之前一年的时间里,由于机房空调不稳定以及偶然性断电,所以 raid 卡日志里会有温度过高的报警日志。
以下是这两天发生的问题:
两天前开机后,我发现的一个训练集的文件突然损坏了,我在一周前还在用这个文件做训练,期间没有动过这个文件,看文件的修改日期也和之前一致,去翻 raid 卡的日志有以下内容:
第一类,一致性检查报错:
Code: 0x0000003f Class: 0 Locale: 0x01 Event Description: Consistency Check found inconsistent parity on VD 00/1 at strip 492000
Code: 0x00000040 Class: 1 Locale: 0x01 Event Description: Consistency Check inconsistency logging disabled on VD 00/1 (too many inconsistencies)
第二类:温度报警
Code: 0x000000b3 Class: 1 Locale: 0x04 Event Description: Enclosure PD 0c(c Port 4 - 7/p1) temperature sensor 1 above warning threshold
这些报警在过去半年的时间里也经常见到。小弟想请教各位彦祖们三个问题,不胜感激:
综上,谢谢各位彦祖!在这里磕头了(砰砰砰)
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.