搭建实验室使用的深度学习服务器

2020-09-16 09:25:41 +08:00

w1573007

实验室资金有限只买了一台服务器。128 的内存，i5cpu，v100 卡。现在想让多人使用计算。

我想的方案是 dock，但不知道性能怎么样。老师给出的方案是 Jupiter 多用户多虚拟环境。

主要大家都要跑 bert，怕内存爆了导致所有人的实验都爆了。

大佬们有什么建议或者方案嘛。

2567 次点击

所在节点

问与答

13 条回复

yangyaofei

2020-09-16 09:55:08 +08:00

v100 单卡? 那只够一两个人跑 BERT 吧.... 怎么都会爆的感觉

w1573007

2020-09-16 10:07:31 +08:00

@yangyaofei 实验室好多少人，cpu,gpu 都用

sleeepyy

2020-09-16 11:04:33 +08:00

直接多用户 ssh 进去自己匀时间用啊，炼丹的机器还搞那么复杂干什么。
另外单卡可能真的不太行，gpu 的多任务其实挺难受的

Tony042

2020-09-16 11:07:49 +08:00

可以搞个 slurm 系统，所有人上去按先后和权重一个一个任务算，和 hpc 一样管理就行了

zhucegeqiu

2020-09-16 11:18:29 +08:00

让领导加预算
我公司的服务器 Xeon(R) Gold 6240，内存 512，P100 * 2，我一个人炼丹都嫌不够
实在不行，2080Ti 多买几张，多人用比单卡方便

misaka19000

2020-09-16 11:40:22 +08:00

加预算

chizuo

2020-09-16 11:42:41 +08:00

搞个服务器管理系统，貌似有这种适用于 gpu 管理的，联系你买服务器的供应商，找他们要

yangyaofei

2020-09-16 13:58:34 +08:00

@w1573007 那基本只能每次一个人了

w1573007

2020-09-16 14:43:50 +08:00

@Tony042 大佬有教程么

594duck

2020-09-16 15:32:46 +08:00

你老师的意见是对的。

最烦干什么都上 docker

Andiry

2020-09-16 15:35:28 +08:00

多买几张 V100，跑的时候用 CUDA_VISIBLE_DEVICES 指定 GPU

Tony042

2020-09-16 21:23:00 +08:00

@w1573007 详见这个教程 https://slurm.schedmd.com/overview.html

s0ne4ver

2020-09-17 11:08:21 +08:00

实验室导师让我们自己找云主机然后报销，我们用过比较实惠的是 mistgpu.com 的，体验挺好。
阿里云华为云滴滴云腾讯云等等各大云服务提供商也都有带 gpu 的服务器，只是价格可能贵一些，像宽带存储都得单独扣费。

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/707419

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.