用淘汰下来的配件装了一台机器,系统是 Debian 13 ,配置了文件下载、共享等等服务,一直以来运行都挺好的。 前段时间想着增加硬盘扩下容,向新硬盘用 rsync 传输了大概 3T 的数据,都是 PT 保种用的,PT 软件用的是 Transmission ,虽然迁移数据不要求重新校验,但保险起见还是都校验了,结果发现有十几个种子校验不通过,手动复制后重新校验均通过,可见源硬盘上的数据是完整的。
于是第一个问题:文件传输出错是源硬盘读取错误、新硬盘写入错误、内存错误、软件错误还是其它原因?如何排查?
接下来就比较奇怪了。因为怀疑内存出错,于是就进 BIOS 取消了 XMP ,然后 U 盘引导跑 memtest86 ,跑了一个多小时没有发现错误,重启后继续用 Transmission 校验,然后过了一段时间后居然就死机了,SSH 断开,网络也 ping 不通,显示器画面冻住无法切换控制台,只能强制关机,应该是内核崩了。此故障可以稳定复现,开机后待机一晚上也没事,编译软件 ffmpeg 转码也正常,但是只要 Transmission 校验,一段时间之后必然死机,死机时正在校验的种子没有发现有规律。试过 BIOS 恢复默认、重装系统,无法修复。这个故障我真的很蒙圈,感觉无处下手,还请大家帮忙诊断。
1
233373 2022-05-21 22:32:11 +08:00
Debian 有 13 了吗?不是 11 吗
|
3
cathiabi 2022-05-21 22:36:27 +08:00
找一下系统日志,看看死机前发生了什么。校验的话,不知道文件传输是否跨了操作系统 /文件系统。
|
4
min 2022-05-21 22:37:38 +08:00
换全部内存,或者拔条子排除
|
5
cev2 2022-05-21 22:46:35 +08:00
建议先排除硬件再排除软件,如果是我我会选择 AIDA64 单烤 FPU ,同时观察 12V 供电(是否过 /欠压)和散热是否有问题。
|
6
powergx 2022-05-21 22:53:18 +08:00
用 ecc 内存看看
|
7
chenxytw 2022-05-21 22:54:51 +08:00
我上次遇到类似的奇怪的问题(特定用户跑特定的程序必现死机...)是 CPU 坏了...
|
8
cwbsw OP |
9
cwbsw OP |
10
gengchun 2022-05-22 00:11:54 +08:00
试一下 magic sysreq 看看。最好看一下 top ,首先要排除 transmission 进程的问题,最好看看能不能升级一下,或者启动不要校验。
|
11
documentzhangx66 2022-05-22 00:18:05 +08:00
1.memtest86 ,跑了一个多小时没有发现错误????
memtest86 不是这样用的。memtest86 ,以 pass 作为一次轮回。一次 pass 表示跑完一轮所有的内存位置。新买的内存,至少要跑一次 pass 来检查是否有坏块。洋垃圾二手内存一般至少跑 2 - 3 个 pass 。 2.服务器是否为 ECC 或 RECC 内存? 3.磁盘用 HD Tune Pro 跑过全盘检查没? |
12
Cooky 2022-05-22 00:24:09 +08:00
用 md5sum sha1sum 之类的持续校验几个大文件试试?
|
13
seers 2022-05-22 00:25:54 +08:00 via Android
内存问题概率大
|
14
kuichieh 2022-05-22 01:19:48 +08:00 via Android
是不是早期的 Ryzen 平台?
|
15
wsseo 2022-05-22 05:38:11 +08:00
插了几根内存?一根根拔下来,直到正常。
|
16
flynaj 2022-05-23 00:18:08 +08:00 via Android
内存问题,我的 Windows 10 差不多一个星期蓝屏一次,memtest86-pro 跑下来没有故障。换了内存才好。软件测试内存不靠谱,除非是明显故障。
|
17
cwbsw OP @documentzhangx66
第一次跑了 2.5pass ,昨天又跑了 4pass ,没有出错。 非 ECC 。 现在机械盘全拔了只留下 SSD ,换 qBittorrent 开始下载,结果还没下完又崩了。 |
19
documentzhangx66 2022-05-23 15:51:34 +08:00
跑个烤机试试,分设备跑。
比如烤内存、烤 CPU 、烤硬盘、烤网卡、烤显卡试试,总有一个部件烤着烤着就死机。 |
20
yanqiyu 2022-05-23 16:32:46 +08:00
先打开 kdump 看看更完整的崩溃的 dmesg ?不过考虑到 kernel panic 可能性也就硬件故障和驱动 bug 两种可能性了
|
21
yanqiyu 2022-05-23 16:37:33 +08:00
我之前遇到过类似的问题,下载 IO 高负债就会崩溃,一开始也怀疑是内存问题,但是因为内存是 ECC 内存&kdump 没看到 EDAC 报错,并且错误是在 iommu 的驱动上的 BUG(),更新了几个内核版本之后就消失了
|
22
ToBeHacker 2022-05-25 17:22:38 +08:00
可能是内存问题,这个不好查。之前我 Windows 老 kernel panic ,把内存条拔下来换下位置好了。服务器还是用用 recc 的内存条更稳当些。
|