目前大概十几个微服务部署在一台 Linux ( suse 、centos 都有)机器上
其他的还有 nginx 、mysql 、rabbitmq 、elasticsearch 、influxdb 等服务
to b 的业务,从 web 访问的并发量并不大,但是服务间 http 调用比较多,每分钟都有定时任务运行,还有每分钟采集设备数据到 influxdb 的相关逻辑
最近老发现中间使用 netty http 调用的老出连接被拒绝的异常
feign 调用偶有超时
rabbitmq 也偶尔报 AmqpTimeoutException
想咨询一下大佬们如何排查问题?
linux 用户最大文件数量已经调到 100w 了
不知道是 linux 的限制,还是 jvm 内存没分够?
使用 netstat -n | awk '/^tcp/ {++S[$NF]} END {for(a in S) print a, S[a]}'命令查看并发的 tcp 数量并不多,ESTABLISHED 在 300 左右徘徊,是方法不对还是本身就不是网络调用的问题?
1
isir1234 2020-09-24 17:42:10 +08:00
可以先查看每个进程打开的文件数:
ps -opid= -ax | xargs -L 1 -I{} -- sudo bash -c 'echo -n "{} ";sudo lsof -p {} 2>/dev/null | wc -l' | sort -nr -k2 |
2
isir1234 2020-09-24 17:48:55 +08:00
Spring Cloud Hoxton.SR5 版本的 Gateway 确实是有 file descriptor 无限增长的问题的, 可以作为一个排查点.
|