小白请教服务性能与故障问题

7 天前
 Curiosity777

背景

目前公司业务都使用 docker 部署,全部加起来 20 来个服务

资源

  1. cpu64 核
  2. 内存 256g
  3. 硬盘几十个 T

问题

数据库服务 tdengine ,使用 rest 连接,近期这个服务一直挂,其他服务都没问题,之前 32 核 128g 的时候就挂,扩容到 64c256g 也挂,进容器里面看连接数,大概有 3000 来个

请教一下,这种问题怎么排查,目前看物理机 cpu 负载 40%左右,业务最高峰是下午四点,很疑惑

  1. 64c256g 支持不了 3000 个连接同时读数据吗
  2. 如何定位到底是 cpu ,网络、还是内存的问题
826 次点击
所在节点    Java
6 条回复
seers
7 天前
上普罗米修斯监控啊
piero66
7 天前
描述太模糊,不会就贴 log
Int100
7 天前
tracing ,logging 和 monitoring 总要提供一个,大伙才好判断呀
xuanbg
7 天前
同样 20 来个服务,我的资源是 8 核 16G ,硬盘空间更是只有可怜的 40G 。服务器目前平均 qps 约 20 ,峰值也有 100+,cpu 大约 4%,内存在 10G 上下。

唯一和 OP 不同的是,我的数据库是独立的,服务是容器化的。所以,建议 OP 把数据库分出去或者装 docker 里面看一下。另外,硬盘几十个 T 是不是为了存储上传的文件?大文件上传没写对方法非常吃内存,值得重点关注。
Curiosity777
7 天前
@xuanbg 第一次崩以为是内存和 cpu 问题,cpu 负载 80 以上,内存 100g 空余 20g ,后来扩容后,还蹦,没有大文件,3000 个链接,平均每个链接读 1000 条数据这样,数据就是基础的时序数据
Curiosity777
6 天前
@xuanbg 主要是不理解,从系统资源看,没有达到瓶颈,仅 3000 连接服务就挂了,平均每个连接 1m 内存也是够的

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1072062

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX