AWS Linux2023 系统安装 supervisord，在“创建映像”后，/run/supervisor/目录丢失，进程退出

公司生产服务器使用的 aws 的 ec2 ，本来用的是 linux2 的系统，docker 部署 redis 等基础服务，上周五突然系统异常， grpc: addrConn.createTransport failed to unix:///run/containerd/containerd.sock <nil> 0 <nil>l, Err :connection error: desc = "transport: Error while dialing dial unix:///run/containerd/containerd,sock: timeout "，Reconnecting... 出现后，服务器登陆不上，重启后也无法登陆。不是专业运维，无能为力，干脆用旧版镜像重新启动了服务。异常后，痛定思痛，重新用 aws linux2023 的系统备用 supervisord 守护进程，管理原生部署的服务，结果，软件基本都安装好了，在做“创建映像”时，supervisord 进程会无故退出，用sudo systemctl start supervisord 也无法启动，看了报错之后发现，因为缺失/run/supervisor/目录，创建后，就可以启动了。以为是偶发，结果重新镜像再次退出进程，/run/supervisor/缺失。本来想定时对系统做映像的，如果创建会触发服务异常那就没有办法定时备份了……

请问下大家有没有碰到过类似问题，是如何处理的？

以下是部分相关配置，并未看到/run/supervisor/这个目录： supervisord.service

ExecStart=/usr/local/bin/supervisord -c /etc/supervisord.conf
ExecStop=/usr/local/bin/supervisorctl shutdown
ExecReload=/usr/local/bin/supervisorctl reload

/etc/supervisord.conf

[unix_http_server]
file=/var/run/supervisor/supervisor.sock   ; (the path to the socket file)

[supervisord]
logfile=/var/log/supervisor/supervisord.log  ; (main log file;default $CWD/supervisord.log)
logfile_maxbytes=50MB       ; (max main logfile bytes b4 rotation;default 50MB)
logfile_backups=10          ; (num of main logfile rotation backups;default 10)
loglevel=info               ; (log level;default info; others: debug,warn,trace)
pidfile=/var/run/supervisord.pid ; (supervisord pidfile;default supervisord.pid)

[supervisorctl]
serverurl=unix:///var/run/supervisor/supervisor.sock ; use a unix:// URL  for aunix socket

julyclyde

2023-08-02 13:26:46 +08:00

先说 containers.sock 的问题：
因为 docker 公司被骗了，把自家的技术捐献给协会，后期更是拆成了 dockerD+contaierD 两层结构。从你说的“用 docker 但是遇到 containerd 错误”推断应该是这种架构的新版本
连不上 sock ，那自然是 daemon 推出了。你需要研究一下它为什么推出了，而不是干脆用旧镜像重新启动了服务

其次，用 supervisord 去守护进程，存在一个问题就是：supervisord 本身的存活怎么保证？
它退出，你检查发现是缺 run 目录，那为什么会缺呢？配置文件里没有提到 run （只有/var/run/）但是检查发现缺 run ，考虑到新时代的新目录结构，应该是符号连接未建立。那么，为什么没建立呢？你知道它是由 tmpfiles 服务建立的吗？

yingping

2023-08-04 14:53:22 +08:00

@julyclyde #3 谢谢呀，docker 的事情现在不用，也没有深究了，supervisord 退出大致知道为啥了，我在用 AWS 的页面对 EC2 的实例操作“创建映像”时，有个选择是“无重启”，我没有勾选，导致创建映像时原有服务器重启。
别的平台有人回复解决 supervisord 不能自启动的解决方案：
因为 /run 目录在系统重启后会被清空。这是因为 /run 目录一般被挂载为一个临时文件系统里。
在我的 supervisord.service 中补充
ExecStartPre=/bin/mkdir -p /run/supervisor/

实测重启服务器能自启成功。