troycheng
2017-10-09 20:26:01 +08:00
你 trace 后才发现还有两个 backend 可用,可是 nginx 怎么知道呢……默认的策略就是轮询呀
1. 你需要先解决那个长耗时请求的问题(合理设置超时,或者解决慢查询的问题),一共就 4 个 worker,hang 住了 2 个,50%的处理能力就没有了,这种严重影响吞吐的问题是根本问题
2. 如果认为这样的情况是符合你的预期的,那么处理一下 nginx 的超时,因为上一个从 nginx 来的请求可能已经因为超时断开了,nginx 认为后端已经是 idle 的状态,于是又把请求发给了这个 backend,调整一下超时,让 nginx 的超时大于你这个场景的处理时间
3. 如果还认为这种情况是符合你的预期的…… proxy 还有配置重试的指令,但不解决上面长耗时的问题,大概率的可能是把 4 个 worker 都变成 hang 住的状态,这个时候重启服务解决一切问题……最终还是要回到 1
简单看一下雪崩和吞吐量相关的介绍就大致明白这个模型了