前情提要 基于 PVE 搭的 all in boom ,里面跑了两个 LXC 容器和一个虚拟机,一个容器跑了显卡直通做 Emby server ,另外一个容器装了 alpine 专门用来跑各种各样的的 docker ,本次故障的最大起因可能就是这个容器,后面会细说的。虚拟机用来跑 OP ,整个这套系统比较稳定的运行了快一年,当中偶尔因为装 docker 的容器内存不够折腾过,所有的其他服务都很稳定,因为系统负载也不大。
前几天装了新的 docker 跑本地的 GPT https://github.com/Yidadaa/ChatGPT-Next-Web/ ,当时装好运行一切正常,然而第二天突然开始出现不能用了,web 页面打不开,一开始以为是绑定域名的反代出了问题,就想着在内网直接用局域网 IP 访问,然后发现也不行了,然后一路排查下来发现整个容器已经挂了,没法 ssh ,然后紧接着发现 PVE 宿主的 web 管理页面也打不开了,但是跑 OP 的虚拟机没有问题,所以网络还是正常的。
ssh 到 PVE 宿主上 top 一下,发现两个进程占了 100%的 CPU ,一个是 java 一个是 portainer ,portainer 是跑在 Docker 的容器里的,所以基本上可以确定是那个容器出了问题,本来到这里我还没有觉得有很大的问题,大不了直接重启下容器就好了嘛,然后我再尝试跑了条 pvesh ,就没有任何反馈回来了,再尝试 SSH 的结果就是可以输入用户名和密码,但是接下来没有命令行出现了
Debian GNU/Linux comes with ABSOLUTELY NO WARRANTY, to the extent permitted by applicable law.
Last login: Wed Jul 19 10:59:26 2023 from 192.168.10.26
正常这里会有 root@PVE:~# 然而它就没有了...所以我就压根没机会执行任何的命令事情到这里我还抱了最后一丝希望,大不了我直接物理连接到宿主机上操作嘛,等了一晚上系统没有自动恢复之后,我开始执行最后的方案,等我接好屏幕和键盘,屏幕上显示的就是一连串
[27234234.123123]systemd failed to start journal service
每一行前面的数字都不相同, 当我 root 登录之后,和 ssh 的结果一样,就没有命令行了... 放狗搜了半天也没发现类似的情况,想要 troubleshooting 都无从入手,还请各位专家帮忙指条明路,除非万不得已我实在不想直接断电重启,真的 all in boom 的话,我今晚就要无家可归了~~这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.