@
lynskylate 举个例子,我们实验室目前有三台公共 GPU 机器,其中一台有 10 块 1080 Ti,一台有 4 块 1080 Ti,另一台有 4 块 Titan X。另外还有 3 块 RTX 2080 Ti 分布在个人领用的主机上。有公共的 Moose FS 文件系统,有 Docker Registry,有内网,所以这些设备必要时都可以连入局域网进行计算。
事实上前段时间我投稿 NIPS 的时候,就是每台我能控制的机器上面都起动了一个 Jupyter Lab,然后开
https://github.com/dask/dask 这个东西用 50 行写的调度器,直接每块 GPU 分别跑各个参数的重复实验,总共跑了 400 多个实验,共 265 天 GPU 时。不过也仅限于单机调度了,多机调度我是靠人肉划分任务,调度在不通的 Dask Cluster 上运行的。
寒假里面我还用过一段时间的 Azure 服务器,因为实验室春节关机。。。
----
这样的场景其实很多的,因为世界上有好多大学实验室。然而工业界的调度程序基本不考虑这种场景的易用性,所以我觉得有个开源项目如果能照顾一下这种场景,还是极好的。