centos7 主机 ssh 卡住也不报错 crond 无反应 必须强制物理重启 但 docker 里的容器都正常

2023-10-08 18:47:10 +08:00
 binbin0915jjpp

RT 设置成每天重启也不行 因为有的时候撑不了一天 感觉宿主机系统死了 怎么排查 128G 内存也只吃了 30 几 G 资源充足的

989 次点击
所在节点    服务器
17 条回复
shixuedela
2023-10-08 19:58:35 +08:00
首先排查是不是网络问题导致的 ssh 卡住,
然后查 log
dode
2023-10-08 20:21:01 +08:00
做一个 webhook 重启 sshd 服务
idontnowhat2say
2023-10-08 20:28:51 +08:00
tty 先直接输入账号密码登陆下看看排除下到底是不是 sshd 进程的问题。
LindsayZhou
2023-10-08 23:04:03 +08:00
问这种问题很不好,没有足够信息别人只能盲猜。

我猜是 profile 里有东西卡住了。
如果是 bash 的话,试试 --noprofile --norc 参数吧。

ssh -t remote_host bash --noprofile --norc
binbin0915jjpp
2023-10-09 06:29:44 +08:00
@LindsayZhou 就是不知道怎么查 只是描述现象 感觉是 amd 机器的锅 不稳定?
julyclyde
2023-10-09 20:58:11 +08:00
首先,你提到“宿主机”那你是用了虚拟机吗?建议先描述清楚这层关系
binbin0915jjpp
2023-10-10 10:54:21 +08:00
@LindsayZhou 无效
[root@f0ba92c6c19b /]# ssh -t 192.168.1.3 bash --noprofile --norc
The authenticity of host '192.168.1.3 (192.168.1.3)' can't be established.
ECDSA key fingerprint is SHA256:tFOfvXN7u9diTevMb9tapK3zT9MacXNVFTb875aud2E.
ECDSA key fingerprint is MD5:ac:f3:78:2c:62:50:02:7e:a6:3d:c0:68:1d:c7:54:0a.
Are you sure you want to continue connecting (yes/no)? yes
Warning: Permanently added '192.168.1.3' (ECDSA) to the list of known hosts.
root@192.168.1.3's password:
packet_write_wait: Connection to 192.168.1.3 port 22: Broken pipe
binbin0915jjpp
2023-10-10 10:56:37 +08:00
@julyclyde 就是一台 Centos7 服务器(叫他宿主机) 上面跑了很多容器
binbin0915jjpp
2023-10-10 10:57:11 +08:00
容器运行都没问题 但是主机自己的 ssh crond 服务器都死了
julyclyde
2023-10-10 13:52:44 +08:00
@binbin0915jjpp 主机自己的 ssh 、crond 都死了啊,那你有没有对它进行性能监控呢
看看出问题瞬间有什么指标飙升的情况吗?比如进程数、内存用量、swap 速率、tcp 连接数、打开文件总数之类的
binbin0915jjpp
2023-10-10 15:52:44 +08:00
@julyclyde 没有 关键到机房直接操作 也不行 ssh 死的 本地也连不上..
spediacn
2023-10-10 18:36:58 +08:00
128G 应该是物理机吧

建议按楼上这位哥的来,看看进程数、内存使用、swap 速率、tcp 连接数、文件句柄数,如果因为死掉没法看的话,旁路接一个交换机的端口镜像,持续抓包看是不是有异常连接数大户吃光了

再者,我也遇到过几次莫名其妙死了的情况,盲目扩句柄数、会话数、缓存这些参数可能改完是正常的,但遇到一些极端环境(比如某些进程占用过大)才能发现问题。我觉得多数都是 sysctl 里头的参数配置导致问题,如果你修改过 sysctl ,将修改内容注释掉跑几天试试。

如果直连互联网没做防护的话,大概率被打。
julyclyde
2023-10-11 14:26:58 +08:00
@binbin0915jjpp 插键盘也登录不上嘛?是卡在输入密码之前还是输入密码之后?
binbin0915jjpp
2023-10-11 14:39:32 +08:00
@julyclyde 输入之后
binbin0915jjpp
2023-10-11 14:41:23 +08:00
怀疑是这 2 个参数 之前改的过于夸张大
ClientAliveInterval 60
ClientAliveCountMax 1500
改回来了 暂时还没死
julyclyde
2023-10-11 14:42:04 +08:00
@binbin0915jjpp
本地登录,“login 冒号”是 getty 程序提供的
你输入用户名之后它 exec 了 login 命令,由 login 命令提问“password 冒号”,并进行验证
然后 exec shell
按说这一系列都不会额外多出进程数来,打开文件数会增加,所以猜测应该不是这两项满了导致的

往内存量方面考虑一下试试?
binbin0915jjpp
2023-10-11 15:01:13 +08:00
@julyclyde 128G 内存 自用了 30 不到 top 里也基本正常

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/979966

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX