V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要把任何和邀请码有关的内容发到 NAS 节点。

邀请码相关的内容请使用 /go/in 节点。
cookLv
V2EX  ›  NAS

有没有 PVE 装黑裙的大佬,我的黑裙最近时间总是不定期掉线,头疼

  •  1
     
  •   cookLv · 17 天前 · 1534 次点击

    表现: 可能几天就一次,必须要重启,重启后查看日志,里面有 link down 的记录

    1 、目前机器仍然在掉线状态,由于 pve 中其他虚拟机,除了 windows 外,都依赖于群晖的 smb ,所以群晖掉线后,其他服务基本都不可用了

    2 、发现群晖掉线后,访问 pve 后台是正常的,但是过了几个小时,pve 后台也访问不了了,暂时没有头绪。pve 本身不依赖群晖。ssh 可以访问,管理端访问不了了。

    3 、目前 windows 还是正常的状态,由于这次掉线刚好群晖在扩容,所以还没敢重启,黑盒等待中(无法得知扩容状态,但是掉线之前看到预计 1 天多一点,所以昨天中午掉线后,就没重启,准备今天晚上重启下。)

    猜测: 是网络掉线了,原因未知。

    1. 之前也有好几次掉线,所以应该不是因为扩容导致的问题。

    2. pve 中的其他虚拟机( windows+ubuntu+ct 容器*2 )都是正常的,没有掉线问题,排除硬件网口的问题

      应该是 pve 主机和群晖的某些配置兼容性,或者是群晖本身的问题。

    3. 目前是 44t+14t 组的群晖的 shr1 ,容量=44t ,剩余空间是 700G ,前段时间出现问题的时候,怀疑是容量过低导致的,所以清理出来了一些空间,目前是 700G 。应该可以排除容量问题。

    4. 网卡选的是 E1000 ,应该不是兼容性问题?这个不确定。

    第 1 条附言  ·  15 天前
    更新:
    今天又掉线了,不过查看群晖的日志发现在掉线之前,pve 大量访问群晖的共享盘,有个共享盘我挂到 pve 当备份存储了,之前系统盘容量不够用,不过目前扩容了,我摘掉再观测下看看。
    第 2 条附言  ·  14 天前

    今天早上发现,群晖又掉线了,同时pve的管理端和ssh都连不上了,直接重启。 重启后查看系统日志,发现昨天晚上8点开始报错连不上群晖的smb了(2.11是群晖的地址)

    https://imgse.com/i/pAEt2E4

    然后查了下发现,直接从管理页面删除挂载的smb盘不会直接取消挂载,要命令摘掉,然后执行了umount。

    不过从日志看,源头并不是PVE导致的,反而可能是群晖掉线引起的pve访问smb超时,导致了pve的崩溃,下面是pve的后续日志,好像是0点开始自动备份dpkg-db-backup.service,然后就开始出问题了

    https://imgse.com/i/pAEt2E4

    然后日志就停了,直到我重启,好像是日志服务崩溃了。什么原因没看懂。群晖为什么掉线也不清楚。。。,不过大概知道,群晖是先出的问题,而且掉线后pve过段时间也会掉线,到底是因果关系,还是一个问题先后导致的两个系统出的问题,不清楚。 目前怀疑的点有三个: 1、pve之前从7.x更新到了8.1.3,可能是系统升级导致的 2、有个老哥提示说可能是sata扩展卡过热导致的问题,感觉也有可能,我的nas没有在主板仓装风扇,里面只有一个cpu的风扇。而且硬盘一直在高负载读写(pt刷流) 3、网卡的配置问题。 看到有人遇到pve虚拟机频繁掉线,不过我是不定期 解决方案: ethtool -K <接口> tx off rx off 目前还是重点怀疑2。 不过根据操作难度我决定以3->2->1 的顺序排查。

    第 3 条附言  ·  5 天前

    在tg群友的帮助下破案了(万分感激): 是nfs读写性能问题,qb查看统计信息,看到io队列拍了500+。 背景: pve宿主机: 1、黑群晖:只提供存储服务,对外提供smb和nfs服务。 2、docker(lxc容器):部署docker,然后用nfs挂载群晖的共享盘到lxc容器,然后映射给qb 3、windows虚拟机...

    所以问题就出现在qb下载的时候,nfs性能不够,导致io拥挤,然后可能进一步导致了群晖掉线了。 更深一步的原因,或者说nfs负载如何导致群晖掉线的因果关系暂时没有探索(个人linux小白,简单查了下没找到原因)。

    解决:

    把qb挪到群晖中的docker里面,避免通过nfs进行下载和上传。emby等服务仍然留在lxc中。

    PS:为什么用nfs而不是smb?最开始用的是smb,但是docker中的emby和jellyfin会无法播放刚入库的资源,过段时间才可以访问,开始怀疑是不是缓存之类的配置项导致的,然后尝试修改了一些参数,也没有解决,就换成nfs了,确实解决了这个问题。没想到后续出现了新的问题。

    21 条回复    2024-08-31 10:00:33 +08:00
    cookLv
        1
    cookLv  
    OP
       17 天前
    好像不能编辑了,上面的星号被转义了,容量是 4*4T+14T
    zhouhuade
        2
    zhouhuade  
       17 天前
    看下 pve 的日志呀,
    感觉你应该有用 sata 扩展卡,看看扩展卡是不是有问题
    cookLv
        3
    cookLv  
    OP
       17 天前
    @zhouhuade 是的大佬,确实用了 sata 扩展卡,主板只有 6 个 sata 口,所以买了一个 4 口的扩展,怎么知道是不是扩展卡的问题呢?日志我等下回家找找怎么看。
    cookLv
        4
    cookLv  
    OP
       17 天前

    这是我用的扩展卡,主板是华硕的 tuf b360m -plus gaming
    cookLv
        5
    cookLv  
    OP
       17 天前
    补充信息:pve 主机 ssh 也无法登录了,但是还可以 ping 通,windows 虚拟机暂时没问题

    ps:为什么帖子不能追加内容了呢,也不能修改。
    JensenQian
        6
    JensenQian  
       17 天前
    我之前也是 pve 装的黑裙,也是经常掉线
    我后面直接物理机装了 unraid ,现在一年多了都没怎么掉过线
    bytesfold
        7
    bytesfold  
       17 天前 via iPhone
    PVE 主机网卡的问题好像,需要关闭网卡的硬件加速啥的,改成 cpu 解码;
    不对在改回来
    phenixc
        8
    phenixc  
       17 天前
    pve 的直通设备出现问题就会有这现象,没有找到好的解决办法
    laminux29
        9
    laminux29  
       17 天前
    经常掉线要注意一下温度与电源。

    1.大家应该都知道水冷,可是几乎没人告诉你:主板、存储介质、网卡、光模块这类都需要控温的。
    曾经有一块主板不定期蓝屏,搞了个 12cm 风扇对着主板吹,就好了。而且主板温度很难监控到。

    2.换个电源试试。以前我在京东自营,买了某品牌电源,买了几个,都没撑过 2 年。京东给我换,我不要。直接去拼多多买了爆火的尘雨电源。

    3.内存条跑个 Memtest86+,至少 1 个 pass

    4.重装 + 双烤 30 分钟试试。
    cookLv
        10
    cookLv  
    OP
       16 天前
    @JensenQian 哎,搭建了好多服务,不到最后一步不想重新折腾了

    @bytesfold 谢谢回复,这个之前好像看到过文章,改动过后面还没观测,物理网口掉线了,排查过程中改回去了,我今天重启恢复了再试试看。

    @phenixc 难受了

    @laminux29 感谢回复,不过由于其他的虚拟机都没什么问题,暂时不往硬件排查,而且温度其实挺正常的,我有经常看
    X2031
        11
    X2031  
       16 天前
    PVE 黑裙 稳定运行 300 多天了 啥问题没有
    shouh
        12
    shouh  
       16 天前
    我这边 PVE 虚拟机上面的群晖老是不定时重启,一直找不到原因,请大佬指导下
    系统
    System booted up from an improper shutdown

    System started to boot up.
    cookLv
        13
    cookLv  
    OP
       16 天前
    @shouh 异常关机,找找 pve 的日志看看有没有记录,我没遇到过重启,我的都是掉线
    @X2031 羡慕
    yanlaury
        14
    yanlaury  
       16 天前
    https://kiritow.com/proxmox-eth-fix/
    试试这个吧,我之前 pve 失联用这个解决的
    YASUAKI
        15
    YASUAKI  
       16 天前
    @shouh 尝试更换 pve 内核,我之前更新了内核之后就大概每隔 15min 黑裙就自动重启,也提示这个日志,换回原来的内核就好了
    qpwo005451mark2
        16
    qpwo005451mark2  
       16 天前
    t/944268
    我之前遇到这个表现和你这个有点像,当时我是把 PVE 宿主系统做了 ZFS raid 1 ,推测是硬件与 ZFS 兼容性问题,文件系统使用 EXT4 之后就没有这个问题了,有键鼠显示器的话接上 PVE 主机,终端里看下有没有什么异常,我当时就是 load 上百,卡 IO waiting ,PVE 的 pveproxy 遇到这种情况是第一个崩的,sshd 也时间久了也会崩
    OliviaV
        17
    OliviaV  
       16 天前
    我这也几百天在线了 用的是 virtio 版本是 7.4-17
    zhouhuade
        18
    zhouhuade  
       15 天前
    我之前用了 sata 扩展卡,过热到一定程度就会导致失联
    我建议优化散热,给扩展卡加散热片
    我当时查到是扩展卡的问题是在 pve 的日志里看到很多 sata 扩展卡的 pci 设备报错
    cookLv
        19
    cookLv  
    OP
       15 天前
    更新:
    今天又掉线了,不过查看群晖的日志发现在掉线之前,pve 大量访问群晖的共享盘,有个共享盘我挂到 pve 当备份存储了,之前系统盘容量不够用,不过目前扩容了,我摘掉再观测下看看。
    shouh
        20
    shouh  
       14 天前
    @YASUAKI 好的,谢谢,再测试看看
    cookLv
        21
    cookLv  
    OP
       14 天前
    @zhouhuade #18 大佬,散热片怎么加的呀,绑上去还是粘上去呢,有没有散热片推荐呢
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   4133 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 09:56 · PVG 17:56 · LAX 02:56 · JFK 05:56
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.