高并发的服务器,需要监控哪些指标呢?

2019-01-16 18:09:23 +08:00
 panyanyany

最近遇到问题如下:

  1. 不明原因 ssh 登不上( timeout ),服务器 http 接口返回 502 Bad gateway。
  2. 某个服务突然出现一大堆 redis 的连接错误 redigo: use of closed connection (反复检查了代码,有正确关闭 redis.Conn )。重启该服务又没问题了。

这些问题目前都没什么头绪,服务器的 CPU,Memory 这些常用的监控指标完全看不出来有问题。有大佬知道一套完事的监控方案吗?

1924 次点击
所在节点    问与答
9 条回复
blless
2019-01-16 18:13:42 +08:00
连接数
ruandao
2019-01-16 18:15:12 +08:00
2.
显然是 因为使用了已经关闭的连接。。。
ly4572615
2019-01-16 18:19:35 +08:00
连接数,内存占用,cpu 占用,服务进程存在与否,监听端口存在与否,外网网络延迟,磁盘占用,算了越说越多
houzhimeng
2019-01-16 18:22:08 +08:00
slb (有效并发,活动并发连接,非活动,流量)
实例(常规项),内核优化 timeout 之类的
CivAx
2019-01-16 18:26:55 +08:00
netstat 观察连接数
htop 观察 CPU 占用与 Load,并发暴涨应用可能会导致 CPU 出现线程阻塞( Kernel BUG: CPU Stuck )
dstat 观察磁盘读写
内存反而是你最不该关心的(如果你分配了 Swap 的话)
byteli
2019-01-16 18:55:29 +08:00
看描述是要监控特定端口的连接。以及在代码里多打日志
micean
2019-01-16 19:31:20 +08:00
2. 中间有没有代理或者防火墙,如果有的话看看配置的默认超时时间
ly4572615
2019-01-17 09:40:17 +08:00
@CivAx 我手里有个项目连接数不到 100 的情况下,内存吃光,swap 用了 80%(16G 内存,4Gswap)
CivAx
2019-01-17 09:59:56 +08:00
@ly4572615 你这个是“因为后端应用的内存限制问题导致内存吃空”,而不是“因为并发问题导致内存吃空”,不是一个讨论点。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/527679

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX