nginx + spring cloud 大量并发时 nginx 502 错误

服务架构 nginx + spring cloud + redis + mysql

nginx (4 vCPU 8 GiB)

网关 1 (4 vCPU 8 GiB) 网关 1.png

网关 2 (4 vCPU 8 GiB) 网关 2.png

网关 3 (8 vCPU 16 GiB)

上述服务器除了 nginx 是 20mb 带宽其他都是 1mb 带宽走的阿里云内网

其他 cloud 服务，负载均正常，没有出现错误日志。

数据库使用的是阿里云的 rds 8 核 mysql 5.7

redis 内存占用 800mb

自己压力测试结果

1 、直接连接网关进行接口测试 3000 并发时会出现接口无法响应的情况

2 、从 nginx 进行均衡负载后在 1000 并发时就会出现 nginx 返回 502 的情况错误日志报错 no live upstreams while connecting to upstream

下面是压力测试接口，单次请求详情，也是 nginx 出现 502 时大量用户请求的接口之一。

Load time:1052
Connect Time:932
Latency:1042
Size in bytes:38847
Sent bytes:260
Headers size in bytes:173
Body size in bytes:38674
Sample Count:1
Error Count:0
Data type ("text"|"bin"|""):text
Response code:200
Response message:OK


HTTPSampleResult fields:
ContentType: application/json
DataEncoding: null

接口数据是做了 redis 缓存的。

尝试过的配置，


修改服务器内核配置 /etc/sysctl.conf

net.ipv4.tcp_max_tw_buckets = 262144
net.ipv4.tcp_syncookies = 1
net.ipv4.tcp_synack_retries = 2
net.ipv4.tcp_max_orphans = 262144
net.ipv4.tcp_max_syn_backlog = 262144
net.ipv4.tcp_timestamps = 0
net.ipv4.tcp_syn_retries = 1
net.ipv4.tcp_slow_start_after_idle = 0

还有一些配置 nginx 的 max_fails 重试次数以及配置 keepalive_timeout 超时时间等，都没有改善这个问题。

出现 502 后，服务并没有崩溃，高峰过了后一会儿就自动恢复正常了。

请问大佬们，出现这种情况都是怎么解决的呢？

BenchWidth

2023-01-12 16:09:58 +08:00

@perfectlife 网关 3 内存没有爆，只是阿里云没有展示出来，服务都是正常的

@daye 经过了一系列排查暂时定位在了 nacos 的服务发现上，nacos 使用的版本是 1.3 性能不高，并且 nacos 没有做集群，在查询一些列文章后，简单总结了一下大概的意思是。1.*的 nacos 并发率不高，2.*的 nacos 有 10 倍的性能提升。现在正在尝试升级 nacos 看看是否能够解决问题。

@sujin190 qps 最高有在 2w 多，由于业务原因，经常会出现短时间内并发数剧增的情况。

@seers nginx 没有限制 upstream 的连接数