以 docker 的方式配置多台主机的 gpu 集群,想来咨询大家一些细节

2019-11-07 16:05:12 +08:00
 songjf

最近有深度学习的大量需求,需要搭建一个 gpu 集群方便大家一起使用。

我的初步想法就是:

1.自己购买显卡,cpu,主板等组装多台主机(这个就后续慢慢看用些什么显卡了)

2.通过 docker swarm 的方式将这些电脑连接在一起,使用 docker 的目的就是为了隔离开每个用户,同时也保证了每个人的 root 权限, 大家可以通过 ssh 服务登录到自己创建的容器内。除此之外,通过 swarm 这样子每个人可以使用不同主机的显卡进行训练,不用在每台机器上反复配置。

3. docker swarm 会有一个管理节点和计算节点,我网上调研的结果就是通过 Infiniband 网络连接存储节点来完成运算数据的读取和存储。其实在这里我有个问题,这样子的话能否保证一个读写的速度,还想来请教一下过来人。另外,是否可以各台主机有自己的系统存储外,一起共用一个数据盘,不知道如何实现这个。

资金有限,也是在慢慢摸索不断进步,网上搜索到的教程都是些零零碎碎的。谢谢大家听我啰啰嗦嗦到这,如果有过来人搭建过愿意分享的那真的是万分感谢的。如果大家看到些什么好的教程也可以丢给我,有什么好的想法也可以告诉我,谢谢大家了。

1452 次点击
所在节点    问与答
1 条回复
songjf
2019-11-07 19:07:49 +08:00
有幸看到的话, 请移步到 https://www.v2ex.com/t/617275

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/617261

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX