实验室服务器大家都是怎么管理使用的?

2021-12-19 20:48:49 +08:00
 chizuo

我们的使用

为每台服务器创建用户,有一个网页面板展示所有服务器的使用情况(主要是 GPU),大家相当于竞争状态,看到哪台服务器空了,有需要了,就把项目重新部署到空余的服务器上跑。

优势

相当程度上,能够充分利用每个 gpu ,如果大家积极性高的话,不停的 switch 可以充分利用所有自愿(比较牵强)

劣势

劣势太明显了,有时候跑着停了一下或者正在改代码、debug ,显卡就被别人用上了。你就要重复部署自己的项目到空余的服务器上,而且文件碎片严重,也比较浪费存储空间,很多时候大家的项目都是复制了好几遍在各个服务器上。一些大的数据集、静态文件也散落各地。

请问大家有没有比较好的服务器使用管理办法?

比较为难的是,服务器的配置不一样的,有的老 titan ,有的 3090 、Tesla ,大家都不管模型大小都倾向于在新服务器上跑,有些旧服务器都是空闲状态。

注意不能改造、重做系统,因为大家都历史遗留 checkpoint 各种文件、特定环境,而且各系统横跨各种版本。

或者有没有在这种管理方式下,比较方便的项目文件同步?

目前用 rsync 写了脚本,但是由于文件规则复杂(有时候只同步代码,有时候又要同步模型),很麻烦,而且很容易出错,想象你在几台服务器上,那个跑 A 实验,这个跑 B 实验,有时还要把两者结果传来传去。甚至做实验旧了,都忘记了实验结果在哪台服务器上。

谢谢大家

4381 次点击
所在节点    问与答
23 条回复
mjikop1231
2021-12-20 15:20:08 +08:00
SLURM ( https://github.com/SchedMD/slurm)
存储也是 NFS ,同一套文件系统,不过我们是 DL ,所以 IO 瓶颈严重的很。

当集群玩了,排队功能还是很好玩的。
zxCoder
2021-12-21 11:14:05 +08:00
我们直接分配到人。。。。。直接野生使用
hhs66317
2021-12-24 14:44:37 +08:00
服务器都在一个机房的话,存储用 NFS 挺好的,万兆内网,这样至少最烦人的文件同步就不用担心了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/823176

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX