PVE 隔一天自动重启,卡死断流,有人遇到过吗

30 天前
 CareyQ

硬件:CPU 5600G + 微星 A520M-A-PRO 平台:PVE 8

正常运行着,大概隔一天就访问不了,路由器中也不见了设备,直接插屏幕访问也卡死。必须强制关机,再开机才能用。查看系统日志,总有一条 Reboot 。结合上文也看不出啥问题,每次 Reboot 上面的内容都不一样。

尝试过加微码,关闭自动更新,关闭直通等操作。

只运行了 3 个 LCX ,CPU 温度啥的也正常,资源占用也不高,实在是没招了。有大佬知道遇到过吗?

May 27 00:44:43 pve kernel: Code: fe 7f 44 1f 80 c5 f8 77 c3 80 3d c4 ad a0 00 01 75 0d c5 f9 ef c0 48 81 fb 00 00 00 02 73 13 48 89 d9 48 c1 e9 03 48 83 e3 07 <f3> 48 ab e9 65 fe ff ff c5 fe 7f 07 48 89 fe 48 83 c7 20 48 83 e7
May 27 00:44:43 pve kernel: RSP: 002b:000000c00013cf98 EFLAGS: 00010246
May 27 00:44:43 pve kernel: RAX: 0000000000000000 RBX: 0000000000000000 RCX: 000000000000a000
May 27 00:44:43 pve kernel: RDX: 000000c000648000 RSI: 0000000000000000 RDI: 000000c00069a000
May 27 00:44:43 pve kernel: RBP: 000000c00013cff8 R08: 00000000000a2000 R09: 000000c000648000
May 27 00:44:43 pve kernel: R10: 0000000000000051 R11: 00007f2c528eb000 R12: 00000000006e9f01
May 27 00:44:43 pve kernel: R13: 0000000000df3320 R14: 000000c000200680 R15: 0000000000000003
May 27 00:44:43 pve kernel:  </TASK>
May 27 00:44:43 pve kernel: BUG: Bad page state in process mysqld_exporter  pfn:3ea78d
-- Reboot --
May 27 01:35:20 pve kernel: Linux version 6.8.4-3-pve (build@proxmox) (gcc (Debian 12.2.0-14) 12.2.0, GNU ld (GNU Binutils for Debian) 2.40) #1 SMP PREEMPT_DYNAMIC PMX 6.8.4-3 (2024-05-02T11:55Z) ()
May 24 13:17:01 pve CRON[353689]: (root) CMD (cd / && run-parts --report /etc/cron.hourly)
May 24 13:17:01 pve CRON[353688]: pam_unix(cron:session): session closed for user root
May 24 14:17:01 pve CRON[377395]: pam_unix(cron:session): session opened for user root(uid=0) by (uid=0)
May 24 14:17:01 pve CRON[377396]: (root) CMD (cd / && run-parts --report /etc/cron.hourly)
May 24 14:17:01 pve CRON[377395]: pam_unix(cron:session): session closed for user root
May 24 15:17:01 pve CRON[401123]: pam_unix(cron:session): session opened for user root(uid=0) by (uid=0)
May 24 15:17:01 pve CRON[401124]: (root) CMD (cd / && run-parts --report /etc/cron.hourly)
May 24 15:17:01 pve CRON[401123]: pam_unix(cron:session): session closed for user root
May 24 16:17:01 pve CRON[424903]: pam_unix(cron:session): session opened for user root(uid=0) by (uid=0)
May 24 16:17:01 pve CRON[424904]: (root) CMD (cd / && run-parts --report /etc/cron.hourly)
May 24 16:17:01 pve CRON[424903]: pam_unix(cron:session): session closed for user root
-- Reboot --
May 25 00:11:59 pve kernel: Linux version 6.8.4-3-pve (build@proxmox) (gcc (Debian 12.2.0-14) 12.2.0, GNU ld (GNU Binutils for Debian) 2.40) #1 SMP PREEMPT_DYNAMIC PMX 6.8.4-3 (2024-05-02T11:55Z) ()
1685 次点击
所在节点    程序员
23 条回复
KINGWAY
30 天前
我的第三次 PVE 又有问题了, 这次是连不上网, 重启也解决不了问题, 估计最新这个版本有重大 bug.
white149
30 天前
有过类似情况是内存报错,我当时是降低频率或只插两条
geekvcn
30 天前
服务器内存别超频,别开 xmp ,内存默认频率电压加到 1.35V 试试。

这里科普下 AMD APU 只有 PRO 版支持纯 ECC 内存,AMD 非 APU 全部版本除了 APU 阉割核显的版本比如 5500 ,都支持纯 ECC 内存。

AMD 非 APU 平台做服务器的有条件的建议上华擎的主板上纯 ECC 内存,服务器可以少很多莫名其妙的问题,华擎 AMD 主板基本都支持纯 ECC 。

DDR4 非 ECC 内存做服务器的,一律建议非 XMP 默频率电压加到 1.35v 。

DDR5 非 ECC 内存做服务器的,一律建议用海力士 Adie 非常稳定,而且有内存容量需求的 Adie 插四根更稳定,镁光三星最好不要用,插四根不稳定除非降频。DDR5 24G 48G Mdie 挑主板适配,注意兼容性,新主板新 BIOS 基本没问题。
Radeon
30 天前
memtest86 跑过没有?
ruidoBlanco
30 天前
沒遇到過。當然我目前還是 6.5 內核,uptime 70 天了,沒事不升級不重啟。

話說,考慮過關掉 mysqld exporter 沒?
00oo00
30 天前
换内存可以试试
ltkun
30 天前
有台 5700u 还是天钡的 插了 32x2 的笔记本 ddr4 没啥问题也是 pve8 稳定不稳定和内存没多大关系
wsbqdyhm
30 天前
肯定是硬件问题
totoro625
30 天前
遇到过一次内存问题,换了大厂内存解决的
PS:可以先安装 Windows 一段时间,并长期开机,跑几遍测试
lazyyz
30 天前
5600G PVE 8.2.2 内核 6.8.4-3 没有遇到这个情况
lazyyz
30 天前
不过去年在用 7 的时候,遇到过死机情况是因为内存问题,建议 OP 跑一下 memtest86 测试
yc8332
30 天前
正常不是内存就是硬盘,用大厂的产品。。May 27 00:44:43 pve kernel: BUG: Bad page state in process mysqld_exporter pfn:3ea78d 这个看起来是内存问题
KyonCN
30 天前
一样的问题,不过我开了 sriov 。
我觉得是 bios 的问题。目前关了 c states 在测试
yinmin
30 天前
主机或虚拟机有没有对 internet 开放的服务?所有公网服务断开几天,看看有没有死机改善。
yinmin
30 天前
对于某些内存条,黑客攻击 http/https 服务,使用特殊包能造成死机(可能与 ddr4/ddr5 内存 bit 翻转有关)
qW7bo2FbzbC0
30 天前
B660 也约到开机一段时间死机的问题,寄给华硕,他们检查了两次说是内存模块有问题
TimPeake
30 天前
想起了我 N5105 pve 里装 istore, 网口疯狂 up/down 切换,物理机直装再也没出现这问题。
Mithril
30 天前
之前说过了,8.1 的内核是有 bug 的,负载高的时候会直接卡死。
但我是虚拟机卡死,并不是 PVE 。你如果是 8.1 可以更新一下试试。
children009
30 天前
内存是大概率的问题,遇到 1 个群友,换了内存就没问题了
mingge2333
30 天前
pve 遇到过类似的问题, 系统问题很棘手,即便是修复了这个问题, 难保还会遇到其他问题, 后来切换 VMware 就没问题了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1044150

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX