有没有 PVE 装黑裙的大佬,我的黑裙最近时间总是不定期掉线,头疼

21 天前
 cookLv

表现: 可能几天就一次,必须要重启,重启后查看日志,里面有 link down 的记录

1 、目前机器仍然在掉线状态,由于 pve 中其他虚拟机,除了 windows 外,都依赖于群晖的 smb ,所以群晖掉线后,其他服务基本都不可用了

2 、发现群晖掉线后,访问 pve 后台是正常的,但是过了几个小时,pve 后台也访问不了了,暂时没有头绪。pve 本身不依赖群晖。ssh 可以访问,管理端访问不了了。

3 、目前 windows 还是正常的状态,由于这次掉线刚好群晖在扩容,所以还没敢重启,黑盒等待中(无法得知扩容状态,但是掉线之前看到预计 1 天多一点,所以昨天中午掉线后,就没重启,准备今天晚上重启下。)

猜测: 是网络掉线了,原因未知。

  1. 之前也有好几次掉线,所以应该不是因为扩容导致的问题。

  2. pve 中的其他虚拟机( windows+ubuntu+ct 容器*2 )都是正常的,没有掉线问题,排除硬件网口的问题

    应该是 pve 主机和群晖的某些配置兼容性,或者是群晖本身的问题。

  3. 目前是 44t+14t 组的群晖的 shr1 ,容量=44t ,剩余空间是 700G ,前段时间出现问题的时候,怀疑是容量过低导致的,所以清理出来了一些空间,目前是 700G 。应该可以排除容量问题。

  4. 网卡选的是 E1000 ,应该不是兼容性问题?这个不确定。

1584 次点击
所在节点    NAS
21 条回复
cookLv
21 天前
好像不能编辑了,上面的星号被转义了,容量是 4*4T+14T
zhouhuade
21 天前
看下 pve 的日志呀,
感觉你应该有用 sata 扩展卡,看看扩展卡是不是有问题
cookLv
21 天前
@zhouhuade 是的大佬,确实用了 sata 扩展卡,主板只有 6 个 sata 口,所以买了一个 4 口的扩展,怎么知道是不是扩展卡的问题呢?日志我等下回家找找怎么看。
cookLv
21 天前

这是我用的扩展卡,主板是华硕的 tuf b360m -plus gaming
cookLv
21 天前
补充信息:pve 主机 ssh 也无法登录了,但是还可以 ping 通,windows 虚拟机暂时没问题

ps:为什么帖子不能追加内容了呢,也不能修改。
JensenQian
21 天前
我之前也是 pve 装的黑裙,也是经常掉线
我后面直接物理机装了 unraid ,现在一年多了都没怎么掉过线
bytesfold
21 天前
PVE 主机网卡的问题好像,需要关闭网卡的硬件加速啥的,改成 cpu 解码;
不对在改回来
phenixc
21 天前
pve 的直通设备出现问题就会有这现象,没有找到好的解决办法
laminux29
20 天前
经常掉线要注意一下温度与电源。

1.大家应该都知道水冷,可是几乎没人告诉你:主板、存储介质、网卡、光模块这类都需要控温的。
曾经有一块主板不定期蓝屏,搞了个 12cm 风扇对着主板吹,就好了。而且主板温度很难监控到。

2.换个电源试试。以前我在京东自营,买了某品牌电源,买了几个,都没撑过 2 年。京东给我换,我不要。直接去拼多多买了爆火的尘雨电源。

3.内存条跑个 Memtest86+,至少 1 个 pass

4.重装 + 双烤 30 分钟试试。
cookLv
20 天前
@JensenQian 哎,搭建了好多服务,不到最后一步不想重新折腾了

@bytesfold 谢谢回复,这个之前好像看到过文章,改动过后面还没观测,物理网口掉线了,排查过程中改回去了,我今天重启恢复了再试试看。

@phenixc 难受了

@laminux29 感谢回复,不过由于其他的虚拟机都没什么问题,暂时不往硬件排查,而且温度其实挺正常的,我有经常看
X2031
20 天前
PVE 黑裙 稳定运行 300 多天了 啥问题没有
shouh
20 天前
我这边 PVE 虚拟机上面的群晖老是不定时重启,一直找不到原因,请大佬指导下
系统
System booted up from an improper shutdown

System started to boot up.
cookLv
20 天前
@shouh 异常关机,找找 pve 的日志看看有没有记录,我没遇到过重启,我的都是掉线
@X2031 羡慕
yanlaury
20 天前
https://kiritow.com/proxmox-eth-fix/
试试这个吧,我之前 pve 失联用这个解决的
YASUAKI
20 天前
@shouh 尝试更换 pve 内核,我之前更新了内核之后就大概每隔 15min 黑裙就自动重启,也提示这个日志,换回原来的内核就好了
qpwo005451mark2
20 天前
t/944268
我之前遇到这个表现和你这个有点像,当时我是把 PVE 宿主系统做了 ZFS raid 1 ,推测是硬件与 ZFS 兼容性问题,文件系统使用 EXT4 之后就没有这个问题了,有键鼠显示器的话接上 PVE 主机,终端里看下有没有什么异常,我当时就是 load 上百,卡 IO waiting ,PVE 的 pveproxy 遇到这种情况是第一个崩的,sshd 也时间久了也会崩
OliviaV
20 天前
我这也几百天在线了 用的是 virtio 版本是 7.4-17
zhouhuade
19 天前
我之前用了 sata 扩展卡,过热到一定程度就会导致失联
我建议优化散热,给扩展卡加散热片
我当时查到是扩展卡的问题是在 pve 的日志里看到很多 sata 扩展卡的 pci 设备报错
cookLv
19 天前
更新:
今天又掉线了,不过查看群晖的日志发现在掉线之前,pve 大量访问群晖的共享盘,有个共享盘我挂到 pve 当备份存储了,之前系统盘容量不够用,不过目前扩容了,我摘掉再观测下看看。
shouh
18 天前
@YASUAKI 好的,谢谢,再测试看看

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1068522

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX