跑模型的 server 很卡,但是判断不出问题的原因所在,有没有运维相关的老哥有偿看看?

2023-02-12 15:35:23 +08:00
 rjagge

如题,这个问题困扰了我很多天了,vscode 和 terminal 都能感知到明显的延迟。 基于知识付费的原则,小弟为您的知识付费,只为了解决小弟的困惑 wx: cmphZ2dl

1575 次点击
所在节点    问与答
25 条回复
xiri
2023-02-12 15:51:26 +08:00
你这 CPU 占用 user time + system time 都 100%了,还问为什么卡,,,
BanShe
2023-02-12 16:13:37 +08:00
27.7us ,72.3sy ,😂
echoless
2023-02-12 16:15:20 +08:00
你用 htop 会更明显
des
2023-02-12 16:17:44 +08:00
load 都 643 了你还问为什么卡
imydou
2023-02-12 16:19:15 +08:00
sy=剩余 🙈
hsfzxjy
2023-02-12 16:22:34 +08:00
几个核啊能这么跑
rjagge
2023-02-12 16:39:59 +08:00
@imydou 笑死了,我一直以为 us 是 usage 的缩写,然后 sy 想必就是剩余了....
rjagge
2023-02-12 16:42:21 +08:00
@hsfzxjy 有两块 Intel(R) Xeon(R) Gold 5215 CPU @ 2.50GHz
rjagge
2023-02-12 16:43:23 +08:00
@wuhaoecho 不是 root 没有权限....
rjagge
2023-02-12 16:43:51 +08:00
@xiri 了解了一下,是我无知了把 us 当作占用率...
rjagge
2023-02-12 16:47:07 +08:00
@des 了解了一下 load ,发现问题很严重..............
rjagge
2023-02-12 16:52:15 +08:00
@BanShe
@xiri

我看了一下 sy 过高是不是有问题啊大哥们
idblife
2023-02-12 17:58:16 +08:00
能放开 ssh 给网上的陌生人看一下吗?
deorth
2023-02-12 18:38:23 +08:00
把跑模型的进程加点负的 nice 就不卡了
rjagge
2023-02-12 20:03:33 +08:00
@deorth 不是 root 。。。。nice 不了,有什么其他办法吗。。。
des
2023-02-12 20:25:18 +08:00
@rjagge 你这问题很多,首先 24users 是什么情况,然后 load 都六百多了,cpu 的 sys 到 72%也不正常,以及 72 个 zombie 也不正常。不知道你这太机器多少核心,跑这么多进程都是 RUNNING 状态
des
2023-02-12 20:26:59 +08:00
@rjagge 没啥好办法,就是跑的程序太多太卡了
ETiV
2023-02-12 20:28:48 +08:00
装 docker 了没,你能用 docker ps 吗?
ryd994
2023-02-12 20:29:14 +08:00
1. 不是 root 也能 nice ,但是只能从默认的 10 往上加。nice 越高优先级越低。root 可以减 nice ,也就是比默认更高。
2. 你跑模型的程序需要调并行度。并行度太高、开太多进程只会更慢,因为增加了调度开销。基本原则是线程数等于 CPU 核心数(包括超线程)。一点往上加,刚好能稳定占满 CPU 就不必再加了。
ETiV
2023-02-12 20:29:59 +08:00
(如果装了 docker 、并且你当前用户可以用 docker ,你就能把自己变成 root )

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/915387

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX