自组 Linux Server 奇怪问题,请大家帮忙诊断

2022-05-21 22:18:28 +08:00
 cwbsw

用淘汰下来的配件装了一台机器,系统是 Debian 13 ,配置了文件下载、共享等等服务,一直以来运行都挺好的。 前段时间想着增加硬盘扩下容,向新硬盘用 rsync 传输了大概 3T 的数据,都是 PT 保种用的,PT 软件用的是 Transmission ,虽然迁移数据不要求重新校验,但保险起见还是都校验了,结果发现有十几个种子校验不通过,手动复制后重新校验均通过,可见源硬盘上的数据是完整的。

于是第一个问题:文件传输出错是源硬盘读取错误、新硬盘写入错误、内存错误、软件错误还是其它原因?如何排查?

接下来就比较奇怪了。因为怀疑内存出错,于是就进 BIOS 取消了 XMP ,然后 U 盘引导跑 memtest86 ,跑了一个多小时没有发现错误,重启后继续用 Transmission 校验,然后过了一段时间后居然就死机了,SSH 断开,网络也 ping 不通,显示器画面冻住无法切换控制台,只能强制关机,应该是内核崩了。此故障可以稳定复现,开机后待机一晚上也没事,编译软件 ffmpeg 转码也正常,但是只要 Transmission 校验,一段时间之后必然死机,死机时正在校验的种子没有发现有规律。试过 BIOS 恢复默认、重装系统,无法修复。这个故障我真的很蒙圈,感觉无处下手,还请大家帮忙诊断。

3226 次点击
所在节点    Linux
22 条回复
yanqiyu
2022-05-23 16:37:33 +08:00
我之前遇到过类似的问题,下载 IO 高负债就会崩溃,一开始也怀疑是内存问题,但是因为内存是 ECC 内存&kdump 没看到 EDAC 报错,并且错误是在 iommu 的驱动上的 BUG(),更新了几个内核版本之后就消失了
ToBeHacker
2022-05-25 17:22:38 +08:00
可能是内存问题,这个不好查。之前我 Windows 老 kernel panic ,把内存条拔下来换下位置好了。服务器还是用用 recc 的内存条更稳当些。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/854387

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX