Distributions
Ubuntu
Fedora
CentOS
中文资源站
网易开源镜像站
LeeLou
V2EX  ›  Linux

奇怪的 pve 故障

  •  
  •   LeeLou · Feb 6, 2025 · 3015 views
    This topic created in 474 days ago, the information mentioned may be changed or developed.

    用机房的三台 x86 pc 服务器自己组了一个 pve 集群,刚开始都用得好好的.

    有一台虚拟的 win2008r2, 突然不能 rdp 远程了,打开 console 看打不开 .直接重启了虚拟机,启动失败了.然后用 winpe 光盘启动进去看了一下硬盘, 发现好像 c 盘少了不少文件,难怪启动不了,难道是黑客上来把文件删了,感觉又不太可能.

    过了一段时间,一台 hfish 蜜罐服务端的 web 管理页面打不开了,但是 ssh 还能登录上去,看到有不少 zombie 进程, 但是 reboot 和 shutdown 都启动失败了. 就又去强制重启了一下,又进不去系统了. 难道又被黑了?

    想不明白怎么回事. 从 pve 界面上看,三台服务器运行了 200 来天,没有异常重启过.

    唯一有点类似的情况,是两台虚拟机都运行在 ceph 的磁盘上,三台服务器硬盘空间相差比较大,随意组了个 ceph,ceph 好像一直有 warning 的状态.

    Supplement 1  ·  Feb 7, 2025
    发现还没在 V2EX 上传过图片,怎么上传。pve 的 ceph 日志该怎么看,warn 上显示有 host 和 osd down ,但 pve 主机没有 down 的。
    8 replies    2025-02-06 23:58:12 +08:00
    Zeaxion
        1
    Zeaxion  
       Feb 6, 2025
    改了 IP 起不来,或者网口没插线也起不来,多搜索一下相关资料
    nutting
        2
    nutting  
       Feb 6, 2025
    那肯定 ceph 的问题了
    vibbow
        3
    vibbow  
       Feb 6, 2025
    那肯定 ceph 的问题了
    edenzhang
        4
    edenzhang  
       Feb 6, 2025
    这种情况先排查 ceph 的问题,把 warning 问题排查修复一下
    个人家庭环境不建议使用运维比较复杂的分布式存储
    guanzhangzhang
        5
    guanzhangzhang  
       Feb 6, 2025
    那肯定 ceph 的问题了,ceph 集群加监控,然后盘有问题换盘,基本 ceph 就不会出问题
    Int100
        6
    Int100  
       Feb 6, 2025 via iPhone
    大概率是 ceph 的问题,看看是啥 warning
    qW7bo2FbzbC0
        7
    qW7bo2FbzbC0  
       Feb 6, 2025
    还是别用 ceph 吧
    Int100
        8
    Int100  
       Feb 6, 2025
    @qW7bo2FbzbC0 ceph 是个好东西, 只要不出问题......
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   3175 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 54ms · UTC 00:30 · PVG 08:30 · LAX 17:30 · JFK 20:30
    ♥ Do have faith in what you're doing.