如何迁移整个深度学习服务器? [目标服务器不能连接外网]

4 天前
 rjagge

各位老哥, 接到老板需求需要迁移深度学习平台从[旧服务器]到[新服务器]: 需要把这些旧服务器环境, 数据, 和 llm 的模型参数全部搬迁到一个新服务器

[旧服务器介绍] 是 ubuntu 系统, 然后通过 pytorch, trasnformers 等框架进行大语言模型的训练, 然后使用 conda 进行 python 的包管理[大概的意思, 标准的深度学习环境]. 旧服务器下载了三个 70b 的模型,用于本地部署.

[新服务器介绍] 新服务器有安全保护限制不能够连接到互联网. 也就是说, pip install, apt install 以及下载模型参数都不被允许.

[可能的方案] 我个人有限的认知是通过 docker 一次性打包.

我接到的通知是, 我只能够通过在机房内通过物理上传的方式进行实验环境的移植. 老哥们有什么好的方法和建议, 能够方便的做这个移植的事情吗?[小弟从未搞过离线移植]

1268 次点击
所在节点    程序员
23 条回复
coefuqin
4 天前
VMware 这种工业级的东西,应该还是靠谱的。
pagxir
4 天前
@rjagge #3 因为他不会。直接整个系统打包过去就好了,你可以用 lxc/lxd/docker/libvirt-lxc 运行老的环境,如果需要安装新系统但是不想重新配置老环境的话。
mazyi
4 天前
换硬盘

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1088374

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX