V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要把任何和邀请码有关的内容发到 NAS 节点。

邀请码相关的内容请使用 /go/in 节点。

如果没有发送到 /go/in,那么会被移动到 /go/pointless 同时账号会被降权。如果持续触发这样的移动,会导致账号被禁用。
cookLv
V2EX  ›  NAS

有没有 PVE 装黑裙的大佬,我的黑裙最近时间总是不定期掉线,头疼

  •  1
     
  •   cookLv · 2024-08-28 17:18:47 +08:00 · 2547 次点击
    这是一个创建于 376 天前的主题,其中的信息可能已经有所发展或是发生改变。

    表现: 可能几天就一次,必须要重启,重启后查看日志,里面有 link down 的记录

    1 、目前机器仍然在掉线状态,由于 pve 中其他虚拟机,除了 windows 外,都依赖于群晖的 smb ,所以群晖掉线后,其他服务基本都不可用了

    2 、发现群晖掉线后,访问 pve 后台是正常的,但是过了几个小时,pve 后台也访问不了了,暂时没有头绪。pve 本身不依赖群晖。ssh 可以访问,管理端访问不了了。

    3 、目前 windows 还是正常的状态,由于这次掉线刚好群晖在扩容,所以还没敢重启,黑盒等待中(无法得知扩容状态,但是掉线之前看到预计 1 天多一点,所以昨天中午掉线后,就没重启,准备今天晚上重启下。)

    猜测: 是网络掉线了,原因未知。

    1. 之前也有好几次掉线,所以应该不是因为扩容导致的问题。

    2. pve 中的其他虚拟机( windows+ubuntu+ct 容器*2 )都是正常的,没有掉线问题,排除硬件网口的问题

      应该是 pve 主机和群晖的某些配置兼容性,或者是群晖本身的问题。

    3. 目前是 44t+14t 组的群晖的 shr1 ,容量=44t ,剩余空间是 700G ,前段时间出现问题的时候,怀疑是容量过低导致的,所以清理出来了一些空间,目前是 700G 。应该可以排除容量问题。

    4. 网卡选的是 E1000 ,应该不是兼容性问题?这个不确定。

    第 1 条附言  ·  2024-08-30 11:57:26 +08:00
    更新:
    今天又掉线了,不过查看群晖的日志发现在掉线之前,pve 大量访问群晖的共享盘,有个共享盘我挂到 pve 当备份存储了,之前系统盘容量不够用,不过目前扩容了,我摘掉再观测下看看。
    第 2 条附言  ·  2024-08-31 09:42:30 +08:00

    今天早上发现,群晖又掉线了,同时pve的管理端和ssh都连不上了,直接重启。 重启后查看系统日志,发现昨天晚上8点开始报错连不上群晖的smb了(2.11是群晖的地址)

    https://imgse.com/i/pAEt2E4

    然后查了下发现,直接从管理页面删除挂载的smb盘不会直接取消挂载,要命令摘掉,然后执行了umount。

    不过从日志看,源头并不是PVE导致的,反而可能是群晖掉线引起的pve访问smb超时,导致了pve的崩溃,下面是pve的后续日志,好像是0点开始自动备份dpkg-db-backup.service,然后就开始出问题了

    https://imgse.com/i/pAEt2E4

    然后日志就停了,直到我重启,好像是日志服务崩溃了。什么原因没看懂。群晖为什么掉线也不清楚。。。,不过大概知道,群晖是先出的问题,而且掉线后pve过段时间也会掉线,到底是因果关系,还是一个问题先后导致的两个系统出的问题,不清楚。 目前怀疑的点有三个: 1、pve之前从7.x更新到了8.1.3,可能是系统升级导致的 2、有个老哥提示说可能是sata扩展卡过热导致的问题,感觉也有可能,我的nas没有在主板仓装风扇,里面只有一个cpu的风扇。而且硬盘一直在高负载读写(pt刷流) 3、网卡的配置问题。 看到有人遇到pve虚拟机频繁掉线,不过我是不定期 解决方案: ethtool -K <接口> tx off rx off 目前还是重点怀疑2。 不过根据操作难度我决定以3->2->1 的顺序排查。

    第 3 条附言  ·  364 天前

    在tg群友的帮助下破案了(万分感激): 是nfs读写性能问题,qb查看统计信息,看到io队列拍了500+。 背景: pve宿主机: 1、黑群晖:只提供存储服务,对外提供smb和nfs服务。 2、docker(lxc容器):部署docker,然后用nfs挂载群晖的共享盘到lxc容器,然后映射给qb 3、windows虚拟机...

    所以问题就出现在qb下载的时候,nfs性能不够,导致io拥挤,然后可能进一步导致了群晖掉线了。 更深一步的原因,或者说nfs负载如何导致群晖掉线的因果关系暂时没有探索(个人linux小白,简单查了下没找到原因)。

    解决:

    把qb挪到群晖中的docker里面,避免通过nfs进行下载和上传。emby等服务仍然留在lxc中。

    PS:为什么用nfs而不是smb?最开始用的是smb,但是docker中的emby和jellyfin会无法播放刚入库的资源,过段时间才可以访问,开始怀疑是不是缓存之类的配置项导致的,然后尝试修改了一些参数,也没有解决,就换成nfs了,确实解决了这个问题。没想到后续出现了新的问题。

    21 条回复    2024-08-31 10:00:33 +08:00
    cookLv
        1
    cookLv  
    OP
       2024-08-28 17:21:26 +08:00
    好像不能编辑了,上面的星号被转义了,容量是 4*4T+14T
    zhouhuade
        2
    zhouhuade  
       2024-08-28 17:26:34 +08:00
    看下 pve 的日志呀,
    感觉你应该有用 sata 扩展卡,看看扩展卡是不是有问题
    cookLv
        3
    cookLv  
    OP
       2024-08-28 17:30:26 +08:00
    @zhouhuade 是的大佬,确实用了 sata 扩展卡,主板只有 6 个 sata 口,所以买了一个 4 口的扩展,怎么知道是不是扩展卡的问题呢?日志我等下回家找找怎么看。
    cookLv
        4
    cookLv  
    OP
       2024-08-28 17:33:16 +08:00

    这是我用的扩展卡,主板是华硕的 tuf b360m -plus gaming
    cookLv
        5
    cookLv  
    OP
       2024-08-28 17:36:11 +08:00
    补充信息:pve 主机 ssh 也无法登录了,但是还可以 ping 通,windows 虚拟机暂时没问题

    ps:为什么帖子不能追加内容了呢,也不能修改。
    JensenQian
        6
    JensenQian  
       2024-08-28 17:41:38 +08:00
    我之前也是 pve 装的黑裙,也是经常掉线
    我后面直接物理机装了 unraid ,现在一年多了都没怎么掉过线
    bytesfold
        7
    bytesfold  
       2024-08-28 17:45:29 +08:00 via iPhone
    PVE 主机网卡的问题好像,需要关闭网卡的硬件加速啥的,改成 cpu 解码;
    不对在改回来
    phenixc
        8
    phenixc  
       2024-08-28 17:45:35 +08:00
    pve 的直通设备出现问题就会有这现象,没有找到好的解决办法
    laminux29
        9
    laminux29  
       2024-08-28 17:53:46 +08:00
    经常掉线要注意一下温度与电源。

    1.大家应该都知道水冷,可是几乎没人告诉你:主板、存储介质、网卡、光模块这类都需要控温的。
    曾经有一块主板不定期蓝屏,搞了个 12cm 风扇对着主板吹,就好了。而且主板温度很难监控到。

    2.换个电源试试。以前我在京东自营,买了某品牌电源,买了几个,都没撑过 2 年。京东给我换,我不要。直接去拼多多买了爆火的尘雨电源。

    3.内存条跑个 Memtest86+,至少 1 个 pass

    4.重装 + 双烤 30 分钟试试。
    cookLv
        10
    cookLv  
    OP
       2024-08-28 18:05:45 +08:00
    @JensenQian 哎,搭建了好多服务,不到最后一步不想重新折腾了

    @bytesfold 谢谢回复,这个之前好像看到过文章,改动过后面还没观测,物理网口掉线了,排查过程中改回去了,我今天重启恢复了再试试看。

    @phenixc 难受了

    @laminux29 感谢回复,不过由于其他的虚拟机都没什么问题,暂时不往硬件排查,而且温度其实挺正常的,我有经常看
    X2031
        11
    X2031  
       2024-08-29 11:52:43 +08:00
    PVE 黑裙 稳定运行 300 多天了 啥问题没有
    shouh
        12
    shouh  
       2024-08-29 12:13:17 +08:00
    我这边 PVE 虚拟机上面的群晖老是不定时重启,一直找不到原因,请大佬指导下
    系统
    System booted up from an improper shutdown

    System started to boot up.
    cookLv
        13
    cookLv  
    OP
       2024-08-29 13:24:33 +08:00
    @shouh 异常关机,找找 pve 的日志看看有没有记录,我没遇到过重启,我的都是掉线
    @X2031 羡慕
    yanlaury
        14
    yanlaury  
       2024-08-29 16:06:23 +08:00
    https://kiritow.com/proxmox-eth-fix/
    试试这个吧,我之前 pve 失联用这个解决的
    YASUAKI
        15
    YASUAKI  
       2024-08-29 16:30:32 +08:00
    @shouh 尝试更换 pve 内核,我之前更新了内核之后就大概每隔 15min 黑裙就自动重启,也提示这个日志,换回原来的内核就好了
    qpwo005451mark2
        16
    qpwo005451mark2  
       2024-08-29 17:02:33 +08:00
    t/944268
    我之前遇到这个表现和你这个有点像,当时我是把 PVE 宿主系统做了 ZFS raid 1 ,推测是硬件与 ZFS 兼容性问题,文件系统使用 EXT4 之后就没有这个问题了,有键鼠显示器的话接上 PVE 主机,终端里看下有没有什么异常,我当时就是 load 上百,卡 IO waiting ,PVE 的 pveproxy 遇到这种情况是第一个崩的,sshd 也时间久了也会崩
    OliviaV
        17
    OliviaV  
       2024-08-29 17:43:51 +08:00
    我这也几百天在线了 用的是 virtio 版本是 7.4-17
    zhouhuade
        18
    zhouhuade  
       2024-08-29 20:05:37 +08:00
    我之前用了 sata 扩展卡,过热到一定程度就会导致失联
    我建议优化散热,给扩展卡加散热片
    我当时查到是扩展卡的问题是在 pve 的日志里看到很多 sata 扩展卡的 pci 设备报错
    cookLv
        19
    cookLv  
    OP
       2024-08-30 11:56:57 +08:00
    更新:
    今天又掉线了,不过查看群晖的日志发现在掉线之前,pve 大量访问群晖的共享盘,有个共享盘我挂到 pve 当备份存储了,之前系统盘容量不够用,不过目前扩容了,我摘掉再观测下看看。
    shouh
        20
    shouh  
       2024-08-31 00:06:55 +08:00
    @YASUAKI 好的,谢谢,再测试看看
    cookLv
        21
    cookLv  
    OP
       2024-08-31 10:00:33 +08:00
    @zhouhuade #18 大佬,散热片怎么加的呀,绑上去还是粘上去呢,有没有散热片推荐呢
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   955 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 41ms · UTC 20:10 · PVG 04:10 · LAX 13:10 · JFK 16:10
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.