k8s1.12 获取 pod 的 gpu mertics

2019-06-20 10:23:20 +08:00
 vaniot

目前找到的版本实现是 1.13pod-gpu-metrics-exporter,寻求支持 1.12 的采集的开源方案。我好菜,别喷我^_^。

3750 次点击
所在节点    云计算
12 条回复
richzhu
2019-06-20 10:26:40 +08:00
高级,我用的 Prometheus 省事🤪
vaniot
2019-06-20 10:29:41 +08:00
@richzhu 大佬 prometheus 可以采集到 pod 的 goux 信息吗?
choury
2019-06-20 10:41:11 +08:00
用 cadvisor
vaniot
2019-06-20 10:48:45 +08:00
@choury 我用了 cadvisor 的得到 mertic:`container_accelerator_memory_used_bytes`,每一个的 value 都是一样的数据,目前只有一个 node 上有 nvidia gpu,这是统计总的信息?
choury
2019-06-20 10:55:17 +08:00
@vaniot 看 label 啊
vaniot
2019-06-20 11:03:17 +08:00
@choury 从 label 可以区分,但 pod 的 used 的值是一样,没区分开每个 pod 各自的值
choury
2019-06-20 11:06:08 +08:00
@vaniot 你有几张卡? pod 是怎么分配的?
vaniot
2019-06-20 11:09:44 +08:00
@choury 一张卡,每个 gpu 切分 200 份,按 200 来分配
choury
2019-06-20 11:13:38 +08:00
@vaniot 怎么分配的呢? mps ? grid ?当前的监控都只能做到卡的粒度,如果你只有一张卡那看到的都是这改卡的使用率
vaniot
2019-06-20 11:24:07 +08:00
@choury 这两个没用到,获取的 value 似乎是卡的使用率,所以来 V2EX 问下,有没有更细的粒度
menyakun
2019-06-20 11:49:52 +08:00
NVIDA 官方提供的 exporter 没有的话,应该也不会有了吧。你用的是 NVIDA GRID ?我记得是要买许可的吧,不知道会不会有闭源的解决方案。
vaniot
2019-06-20 11:58:17 +08:00
@menyakun Nvidia 提供收费的方案,360 实现了容器的 gpu 监控

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/575721

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX