K8S 自建集群里运行相同的镜像,当配置 32 核 /64G/1GPU(2080ti) 一创建 Pod 容器就 OOM 了,16 核 /60G/1GPU(1080ti) 却正常运行?为啥会这样呢?
已知系统和内核版本都一样:
NAME STATUS ROLES AGE VERSION INTERNAL-IP EXTERNAL-IP OS-IMAGE KERNEL-VERSION CONTAINER-RUNTIME ai-1080ti-24 Ready 1080ti,training 164d v1.13.5 10.200.0.81 <none> Debian GNU/Linux 9 (stretch) 4.19.0-0.bpo.9-amd64 docker://18.6.2 NAME STATUS ROLES AGE VERSION INTERNAL-IP EXTERNAL-IP OS-IMAGE KERNEL-VERSION CONTAINER-RUNTIME ai-2080ti-04 Ready 2080ti,training 2y190d v1.13.5 10.90.1.149 <none> Debian GNU/Linux 9 (stretch) 4.19.0-0.bpo.9-amd64 docker://18.6.2
1
hwdef 2021-10-09 16:11:25 +08:00
具体日志?
|
2
tomczhen 2021-10-09 16:28:05 +08:00 via Android
核心数不一样,有一种可能就是程序按核心数初始化,这样核心多的就会比较容易 oom 了。
|
3
huluhulu 2021-10-09 16:46:38 +08:00
核心差太多了,默认 reserve 所有核心的话,应该会占用更多的内存。
|
4
37Y37 2021-10-09 17:24:38 +08:00
应该就是核心数的问题,看下 pod 用的是不是宿主的 cpu 核数
|
5
longfei210 2021-10-09 17:33:59 +08:00
|