自组 Linux Server 奇怪问题,请大家帮忙诊断

2022-05-21 22:18:28 +08:00
 cwbsw

用淘汰下来的配件装了一台机器,系统是 Debian 13 ,配置了文件下载、共享等等服务,一直以来运行都挺好的。 前段时间想着增加硬盘扩下容,向新硬盘用 rsync 传输了大概 3T 的数据,都是 PT 保种用的,PT 软件用的是 Transmission ,虽然迁移数据不要求重新校验,但保险起见还是都校验了,结果发现有十几个种子校验不通过,手动复制后重新校验均通过,可见源硬盘上的数据是完整的。

于是第一个问题:文件传输出错是源硬盘读取错误、新硬盘写入错误、内存错误、软件错误还是其它原因?如何排查?

接下来就比较奇怪了。因为怀疑内存出错,于是就进 BIOS 取消了 XMP ,然后 U 盘引导跑 memtest86 ,跑了一个多小时没有发现错误,重启后继续用 Transmission 校验,然后过了一段时间后居然就死机了,SSH 断开,网络也 ping 不通,显示器画面冻住无法切换控制台,只能强制关机,应该是内核崩了。此故障可以稳定复现,开机后待机一晚上也没事,编译软件 ffmpeg 转码也正常,但是只要 Transmission 校验,一段时间之后必然死机,死机时正在校验的种子没有发现有规律。试过 BIOS 恢复默认、重装系统,无法修复。这个故障我真的很蒙圈,感觉无处下手,还请大家帮忙诊断。

3226 次点击
所在节点    Linux
22 条回复
233373
2022-05-21 22:32:11 +08:00
Debian 有 13 了吗?不是 11 吗
cwbsw
2022-05-21 22:33:33 +08:00
@233373 哈哈,笔误。
cathiabi
2022-05-21 22:36:27 +08:00
找一下系统日志,看看死机前发生了什么。校验的话,不知道文件传输是否跨了操作系统 /文件系统。
min
2022-05-21 22:37:38 +08:00
换全部内存,或者拔条子排除
cev2
2022-05-21 22:46:35 +08:00
建议先排除硬件再排除软件,如果是我我会选择 AIDA64 单烤 FPU ,同时观察 12V 供电(是否过 /欠压)和散热是否有问题。
powergx
2022-05-21 22:53:18 +08:00
用 ecc 内存看看
chenxytw
2022-05-21 22:54:51 +08:00
我上次遇到类似的奇怪的问题(特定用户跑特定的程序必现死机...)是 CPU 坏了...
cwbsw
2022-05-21 22:54:52 +08:00
@cathiabi 日志没记录到有价值的东西。是本机传输,每个硬盘是单独的文件系统。

@min
@cev2 所以说还是 CPU/内存的嫌疑比较大么。
cwbsw
2022-05-21 23:04:12 +08:00
@powergx 意思传输错误是内存出错的锅吗?但就算是非 ECC ,复制个几 T 文件就坏十几个,这概率有点高啊。

@chenxytw 希望能通过 BIOS 设置抢救一下……毕竟高负载下还是正常的。
gengchun
2022-05-22 00:11:54 +08:00
试一下 magic sysreq 看看。最好看一下 top ,首先要排除 transmission 进程的问题,最好看看能不能升级一下,或者启动不要校验。
documentzhangx66
2022-05-22 00:18:05 +08:00
1.memtest86 ,跑了一个多小时没有发现错误????

memtest86 不是这样用的。memtest86 ,以 pass 作为一次轮回。一次 pass 表示跑完一轮所有的内存位置。新买的内存,至少要跑一次 pass 来检查是否有坏块。洋垃圾二手内存一般至少跑 2 - 3 个 pass 。

2.服务器是否为 ECC 或 RECC 内存?

3.磁盘用 HD Tune Pro 跑过全盘检查没?
Cooky
2022-05-22 00:24:09 +08:00
用 md5sum sha1sum 之类的持续校验几个大文件试试?
seers
2022-05-22 00:25:54 +08:00
内存问题概率大
kuichieh
2022-05-22 01:19:48 +08:00
是不是早期的 Ryzen 平台?
wsseo
2022-05-22 05:38:11 +08:00
插了几根内存?一根根拔下来,直到正常。
flynaj
2022-05-23 00:18:08 +08:00
内存问题,我的 Windows 10 差不多一个星期蓝屏一次,memtest86-pro 跑下来没有故障。换了内存才好。软件测试内存不靠谱,除非是明显故障。
cwbsw
2022-05-23 10:40:04 +08:00
@documentzhangx66
第一次跑了 2.5pass ,昨天又跑了 4pass ,没有出错。
非 ECC 。
现在机械盘全拔了只留下 SSD ,换 qBittorrent 开始下载,结果还没下完又崩了。
cwbsw
2022-05-23 10:42:47 +08:00
@Cooky 现在不用校验了,在 BT 下载途中就崩了。
documentzhangx66
2022-05-23 15:51:34 +08:00
跑个烤机试试,分设备跑。

比如烤内存、烤 CPU 、烤硬盘、烤网卡、烤显卡试试,总有一个部件烤着烤着就死机。
yanqiyu
2022-05-23 16:32:46 +08:00
先打开 kdump 看看更完整的崩溃的 dmesg ?不过考虑到 kernel panic 可能性也就硬件故障和驱动 bug 两种可能性了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/854387

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX