学校的 GPU 分配问题

2022-04-28 09:08:10 +08:00
 hubahuba

学校分配了 10 块 2080ti 给我们组做实验用

可这个机房在另一个校区 那个老师只暴力丢给我们一个 teamview 账号密码··· 经过沟通后表示各种问题无法给我们做 GPU 服务器部署···

所以想问问大家,在这样的情况下,如何做资源的分配呢?

(理想状态的是容器化管理,每个同学都有自己的子账号,自己的 environment )

2696 次点击
所在节点    问与答
14 条回复
pxiphx891
2022-04-28 09:12:25 +08:00
如何做资源的分配?从阿里买一套 DataWorks 就行了
villivateur
2022-04-28 09:14:48 +08:00
要不直接装 10 台主机?这样简单暴力高效
hubahuba
2022-04-28 09:20:13 +08:00
@villivateur 它装在一台上 5T 我真怕哪个同学直接给我删光了 (/捂脸哭)
weak
2022-04-28 09:20:57 +08:00
直接 10 台主机 本来建议 pve 直通的 但是这个太麻烦了
hubahuba
2022-04-28 09:22:55 +08:00
@weak 我问过 他说没有那么多机器了···
hubahuba
2022-04-28 09:26:22 +08:00
对不起 此贴终结 刚才我看到这个账号就两块 GPU 刚打电话问了下 目前其他的没有机器装
fuxiaopang
2022-04-28 09:40:23 +08:00
国内,尤其是国家直属 985 院校的小型固定资产,在采购完的一瞬间就没有价值了,之后的使用维护都没有响应款项,出问题项目负责人、学院院长还要担责,但是明面上还要和学生按照当时报批的用途忽悠,等真想用困难重重。最后自己占了小便宜,学校早晚会想办法要回来。就像我们学校的渲染农场,所有人都不知道藏在哪里,怎么申请使用。后来教育部领导来视察才参观过。对比而言,北京市直属的高校要好很多,费用充足。
dayeye2006199
2022-04-28 09:46:35 +08:00
@hubahuba OP 我们是专门做裸金属上的数据科学实验开发环境的,对 CPU GPU 和存储进行池化。方便添加一下我的微信聊聊吗? eXVodWlfc2hpCg==
hubahuba
2022-04-28 09:57:41 +08:00
@fuxiaopang 太对了

买的时候院长还挺用心的 说实验室不能没设备

谁想到买过来就立马变了,不是说设备问题。

管理,运营,人员,上上下下都是洞

甚至那个管设备的老师跟我说“他一个人多多忙···没时间做这些···”···
jim9606
2022-04-28 10:18:53 +08:00
自己组装几台放办公室里好了,维护也不用看别人眼色,我这边不少组就是这么干了。让教授出点经费搞几台组装机还是容易些的吧?放异地机房又没远程管理和可用性保障的话那没啥优势。
管理的话组内专用不给 root 问题也不会很大,或者就弄个 portainer CE 。
vast0906
2022-04-28 10:37:41 +08:00
搞成 Linux 跑个单点的 k8s ,通过 NVIDIA 的 gpu 做 gpu 划分; 然后一人一个 deployment 里面跑 jupyterlab 。访问的话 可以考虑下 WireGuard
liuliangyz
2022-04-28 10:53:35 +08:00
@hubahuba 小伙子,你太年轻了,你以为你的项目组能搞出很高的产出吗?
学校说分给你们组,不代表老师就按你们要求分配。
从另外一个方便,既然是一个学校的,只是不同校区,你们有没有主动去另外一个校区找老师,协助老师把这 10 块 gpu 部署好。
podel
2022-04-28 11:04:48 +08:00
可以考虑 k8s k8s 可以直接分配 gpu 资源。也可以多多账户进行管理。就是要学习一下。
学习好了。会非常方便的。
crazydd
2022-04-28 18:45:20 +08:00
LSF 大家一起 bsub 排队呀

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/849711

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX