群晖/PVE/ Linux 系统死机如何最小代价的排查问题,每次运行五天后不定时死机。悬赏一包玉溪,采纳后我会 @,先在此谢过了。

6 小时 6 分钟前
 ajaxgoldfish

本来攒了个 nas 之后挺高兴的,没想到总是死机,每次死机周期还挺长,已经好几次持续数月了。

死机现象

硬件

尝试过的方法

实在是没招儿了,求助各位专家,如果先换硬件的话先换什么呢

711 次点击
所在节点    问与答
18 条回复
alfawei
6 小时 4 分钟前
内存条换一个看看

群晖不管黑白都非常非常稳定
memorybox
6 小时 3 分钟前
第一反应是内存; 两根内存留一根,挨个试试?
Puteulanus
6 小时 0 分钟前
蹲一个,我朋友那的 x86 软路由也是隔一段时间随机死,为了避免死机都设置成每天定时重启了,现在比较怀疑的是内存,其次是电源,因为工控机 CPU 取不下来(狗头)
ajaxgoldfish
6 小时 0 分钟前
@memorybox 嗯嗯,目前准备拔一根试试
ScotGu
5 小时 59 分钟前
早年间把 PCIE3.0*8 的万兆网卡 插到 PCIE3.0 X4 (物理槽是 X8 的),也挂过。
happyn
5 小时 55 分钟前
如果是 PVE 的话,我碰上过网卡负载大的时候自动重启的问题,解决方法参考这里:

https://forum.proxmox.com/threads/e1000-driver-hang.58284/page-8#post-390709
zhixiao
5 小时 47 分钟前
我之前也有过会死机的情况,后来发现主板纽扣电池没电了,换了个就再也没出现了
caltong
3 小时 17 分钟前
内存没问题的话就换主板吧,顺带买张诊断卡,到时候方便排查具体卡点。
ningfan120
3 小时 15 分钟前
NAS 的话,还要考虑有没有那个应用持续吃内存,把内存爆掉了,然后就会死机了。
null2error
3 小时 4 分钟前
这不请出日志大法?能稳定复现的问题一般不会太难查~
OysterQAQ
2 小时 56 分钟前
内存没问题就直接换主板,排查代价很大,而且基本查不出
frankilla
2 小时 53 分钟前
我的 pve 每月更新一次系统,在此期间没有死过一次。感觉有没有可能是硬盘问题咧?
lxh1983
2 小时 50 分钟前
我的 8505 装 PVE 或者 unraid 也会死机,后来关掉 C1 就好了
zzNucker
2 小时 49 分钟前
基本主板或者 U 的问题
ajaxgoldfish
2 小时 18 分钟前
@zzNucker 这么严重吗 =。=
ajaxgoldfish
2 小时 16 分钟前
@null2error 不能稳定复现,每次运行五天以上才会死,五天以后就不定时的死机了
yelc668
1 小时 34 分钟前
感觉是内存条跟板不兼容 大概率是这样我猜的
riazjack218
1 小时 25 分钟前
不定时死机的问题之前我也遇到过,每次隔一周左右就死机了,情况和楼主的描述也大差不差,不过我的系统是 esxi
```
2024-09-21T09:16:15.508Z cpu2:2099372)[45m[33;1mVMware ESXi 6.7.0 [Releasebuild-15160138 x86_64][0m
Machine Check Exception: Fatal MCE on PCPU2 in world 2099372:vmm2:linux-2?System has encountered a Hardware Error - Please contact the hardware vendor
2024-09-21T09:16:15.508Z cpu2:2099372)cr0=0x80050033 cr2=0x7f3384751518 cr3=0x12e6ea000 cr4=0x152660
2024-09-21T09:16:15.508Z cpu2:2099372)frame=0x451a0261bec0 ip=0x41801354745b err=18 rflags=0xffffffffffffffff
2024-09-21T09:16:15.509Z cpu2:2099372)rax=0xffffffffffffffff rbx=0xffffffffffffffff rcx=0xffffffffffffffff
2024-09-21T09:16:15.509Z cpu2:2099372)rdx=0xffffffffffffffff rbp=0x1 rsi=0xffffffffffffffff
2024-09-21T09:16:15.509Z cpu2:2099372)rdi=0xffffffffffffffff r8=0xffffffffffffffff r9=0xffffffffffffffff
2024-09-21T09:16:15.509Z cpu2:2099372)r10=0xffffffffffffffff r11=0xffffffffffffffff r12=0xffffffffffffffff
2024-09-21T09:16:15.509Z cpu2:2099372)r13=0xffffffffffffffff r14=0xffffffffffffffff r15=0xffffffffffffffff
2024-09-21T09:16:15.509Z cpu2:2099372)pcpu:0 world:2099368 name:"vmm0:ikuai (V)
2024-09-21T09:16:15.509Z cpu2:2099372)pcpu:1 world:2099590 name:"vmm3:linux-1" (V)
2024-09-21T09:16:15.509Z cpu2:2099372)pcpu:2 world:2099372 name:"vmm2:linux-2 (V)
2024-09-21T09:16:15.509Z cpu2:2099372)pcpu:3 world:2099371 name:"vmm1:linux-3 (V)
2024-09-21T09:16:15.509Z cpu2:2099372)@BlueScreen: Machine Check Exception: Fatal MCE on PCPU2 in world 2099372:vmm2:linux-2?System has encountered a Hardware Error - Please contact the hardware vendor
2024-09-21T09:16:15.509Z cpu2:2099372)Code start: 0x418013400000 VMK uptime: 6:06:35:27.868
```
后来排查发现是宿主机中 CPU 使用率过高,虚拟机无法正常获取资源导致的磁盘 io 延迟过高进而导致 esxi 的崩溃;楼主如果有空的话可尝试装个 esxi 观察几天,等出现紫屏的时候再看看详细的 debug

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1089753

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX