This topic created in 1026 days ago, the information mentioned may be changed or developed.
16 replies • 2023-08-03 15:46:27 +08:00
 |
|
1
leixx Aug 1, 2023
mark ,最近公司也在开展 GPU 的项目,学习一下
|
 |
|
2
zyqv2 Aug 1, 2023 via iPhone
NVIDIA 的 grid 驱动,vgpu license 收费;或者 kvm 的 virgl ,有性能损耗
|
 |
|
3
ysc3839 Aug 1, 2023 via Android
内部使用的话 Docker 就行了吧,虚拟机的 GPU 虚拟化好像都要收费的
|
 |
|
4
leixx Aug 1, 2023
我们是有两个大佬,一个大佬搞内核,一个大佬搞 k8s GPU 调度,我猜想虚拟化也是底层有一套接口?然后通过 hook 的方式,接过来,走自己的逻辑? 不过虚拟化收益高吗?一般直接跑满了。
|
 |
|
6
zzz22333 Aug 1, 2023
virtio-gpu 是一种方案,公司同事最近也在搞
|
 |
|
7
Yiukam Aug 1, 2023 1
需求不大,K8S/Docker 就好了,某地方能源集團和下屬的證券企業就是這麼玩的。玩 LLM 的話,推理無所謂,訓練就是單實例多卡或者裸機就好了。效率相差不大。
我們自己內部也是裸機+Docker 的組合。
|
 |
|
8
kobe718 Aug 1, 2023
gpu 虚拟化需要 gpu 硬件支持 sriov 以前 nvidia 有专门用于虚拟化的显卡叫 grid 系列,可以根据不同的 profile 来把一块高端卡分成好几块低端卡来 但是普通的民用卡、计算卡都没有开放 sr-iov 接口 amd 的好像有见说开放 但没具体研究过
|
 |
|
9
cczh678 Aug 1, 2023
大哥应该是为公司的实际立项的项目来做方案的选型吧?有一家做虚拟化 GPU 的公司,趋动科技,可以了解下他们的产品,我们双方是合作关系。
|
 |
|
12
495414572 Aug 1, 2023
谢谢巨佬们指路,虽然我感觉这个 GPU 虚拟化的需求不一定大,小弟先去研究一下
|
 |
|
15
stoneabc Aug 1, 2023 4
有几种: 1. NVIDIA 官方:VGPU ,这个最趋向于用户理想的虚拟化,一个 GPU 虚拟出多个 vgpu ,通给不同的虚拟机,呈现的和真实 GPU 没啥差异,图形渲染+通用计算都支持。缺点是 license 要钱。 2. 还是 NVIDIA 官方:MIG ,现在应该只有 A100/H100/A30 支持,物理上的切分,缺点是能切分的规格很有限,只支持通用计算。 3. 各类第三方厂商的 hook 类型“虚拟化”:阿里 cGPU ,腾讯 qGPU ,驱动等等,都是 hook GPU 驱动,再基于容器做切分,只支持通用计算,原理有点类似 vGPU ,好处是不用钱,切分非常灵活。
不想搞云上的,那就用 NVIDIA 官方方案,或者像趋动这种三方厂商,不建议自己折腾。
|