CUDA 搞深度学习, 1TB 的一块硬盘, C 盘留多大合适?

7 天前
 jiashuaibei
1731 次点击
所在节点    机器学习
26 条回复
handuo
7 天前
一块 1tb 的硬盘肯定是不够的,看你要干什么了。如果是微调 8b 左右的语言模型,你各种 hf 模型总得下载吧,几个主流的都得占用将近 159gb ,你微调过程中产生的数据很快就会达到 500gb 。再加上数据集,conda 各种包,你得一周就复制和迁移一次数据,很繁琐痛苦。如果是 cv 方向和多模态,那数据集占了大头,但是 1tb 勉强够用。如果是 8b 以上的就不用想了。
我的建议是 c 盘不用太大,但是你要把 hf_home,conda, pip cache 和 docker 默认的 data 文件夹放到别的盘,不然多大都会马上满
Donaldo
7 天前
没必要分区,分文件夹就好了。
kk2syc
7 天前
马上 2025 了,很难想象还有人系统盘和数据盘不分离的。
单独一个盘装系统和各种包,数据集有单独的数据盘。
jiashuaibei
7 天前
@handuo 或者我干脆不分区了呢?全给 C 盘,默认 C 盘,会有什么坑吗?
jiashuaibei
7 天前
@Donaldo 好主意
handuo
7 天前
@kk2syc 这位的建议就很好,而且我个人的偏好还是用 linux 大于 win ,首先是 cuda 和 deepseek 之类的库网上 linux 的帖子和 issues 多一些,反正我是不知道 llama-factory 能不能在 win 上完美地跑。再有就是涉及到文件系统的函数和包有小概率跟 linux 不兼容,最后就是 win 更重一些,乱七八糟的服务挺占资源的。
handuo
7 天前
@handuo 抱歉不是 deepseek ,deepspeed 。深度学习硬盘空间是最不值钱的了,数据盘至少 4tb 是我的推荐哈
dcsuibian
7 天前
一款硬盘一个区,无论 macOS 、Linux 还是 Windows 都是这样
jiashuaibei
7 天前
@handuo 好的,谢谢建议。
jiashuaibei
7 天前
@dcsuibian 我也是这样想的,MacOS 默认一个分区,Linux 我也默认把所有分给 / ,但是放到 Windows 上可能那么多年分区观点一时不好克服,总是觉得不太习惯。因为我现在只有一个硬盘,因此只有一个 C 盘。
dcsuibian
7 天前
@jiashuaibei 如果是我的话,就走上策加硬盘。毕竟 SSD 也不是很贵。
不过真的就算只能用一块硬盘的话,我也仍然不会分区。以前玩 GTA5 的时候就遇到过分区导致的容量不足,自那以后我的硬盘就再也没分过区。
mumbler
7 天前
最近 10 多年一直不分区,大 C 盘,用了 7 ,8 台机器,没任何问题,mac ,linux 也没有分区,也从来没什么问题,分区为了重装系统,win10 以后我已经 10 年没重装过系统了
jiashuaibei
7 天前
@mumbler 本来今晚还有分区想法,刚刚安装了深度训练环境,都是必须装 C 盘的,简单做了一个练习 C 盘就少了 38G ,所以分了估计 C 盘也不够用。
handuo
7 天前
@jiashuaibei 真正跑起来你就知道深度学习有多占空间了,不同的开源项目之间包的冲突是家常便饭,就得新建环境,过半年随随便便 conda 就占一两百个 G 。硬盘空间不够用,就得不停删除缓存、暂时不用的环境和数据集,浪费时间
jiashuaibei
7 天前
@handuo 好的,谢谢指导,我是做毕业设计的因此 1TB 硬盘应该也够用了,现在不准备分盘了,一个 C 盘随便来吧,实在不够了就加硬盘。
coolfan
7 天前
coolfan
7 天前
如果是机器学习要用到的数据集,这种独立性非常非常强的数据,我也倾向于放在独立分区/独立的物理硬盘上。但是我的都是代码什么的~
ysc3839
7 天前
@kk2syc 不是所有人都有钱买多个硬盘,或者像 Mac 这种也没条件装多个硬盘。

如果你说单硬盘分多个区的话,那会出现两个分区无法共享可用空间的问题。
除非当前操作系统提供了一种能共享可用空间的方案,否则我不会也不推荐别人分多个区。
比如 Windows 目前没有共享可用空间的方案,我就不会推荐。
Linux 的 btrfs 可以共享可用空间,我会选择使用 btrfs 并很细致地分区。但如果别人用 Linux 拒绝选择 btrfs ,我也不会推荐。
Donahue
7 天前
深度学习一般用 ubuntu 吧,没有 C 盘这个说法
charm
7 天前
@jiashuaibei #4 如果要重装系统的时候怎么办?格式化系统盘的话所有数据不就丢了?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1100947

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX