🙏🏻🙏🏻🙏🏻手上有一堆 60T 的数据,如何平均拆分成 60 份 1T 的文件备份?

345 天前
 oColtono
如题

我手上的 NAS 有 60T 数据,出于想要用不同介质备份的想法,打算买个 lto5 磁带机。

因为 lto5 磁带每盘只有 1.3T 左右的空间,而我的 60T 数据又是一大堆树状的文件夹,可能有的文件夹里就几 G ,有的文件夹里里有上几十个文件夹,加起来有四五个 T 。

现在有 2 个问题:
1.除了人工分类,有什么办法可以把这 60T 的不太方便分类的数据,拆分成 60 个 1T 左右的备份文件。让我分别塞进 60 个磁带?
2.这些文件夹里的数据还会增长。我除了定期把这堆文件重新拆分、用磁带冷备,有没有别的什么办法可以只需要做增量备份吗?

lto5 磁带的备份价格差不多是 30 块钱 1T ,且保存时间优于硬盘。也期待大家提出别的更好的冷备份方案,谢谢!
3520 次点击
所在节点    NAS
34 条回复
vivisidea
344 天前
啥玩意有 60T 阿。。我群辉用了好几年 4T 都没填满,主要是电影,大部分看完都觉得也就这样,不值得存下来
hanbagui0021
344 天前
楼上说的对,tar 可以分片的,我目前用的备份工具 Duplicati ,也可以压缩分片
laqow
344 天前
请教一下磁带机一般有读取次数寿命吗?一般会不会用类似 raid1 之类通过并行加快读速的技术?
gregy
344 天前
劝 OP 再斟酌一下用磁带机备份

磁带机故障率本来就高,海鲜市场 lto5 磁带机基本都是数据中心淘汰的老家伙,买回来还不够折腾的。
家庭环境的灰尘比数据中心多,磁带机的磁头很容易脏写不了几盘磁带就得清洗磁头。
磁带存储时间比硬盘时间长的前提是良好的储存环境,存储磁带要求恒温、恒湿、防磁一般家庭很难有这个条件。(土豪除外)
磁带存储也不是一劳永逸的,为了保证数据的可读,需要每隔几年就把磁带拿出来用磁带机读取检查一遍,发现有问题需要重写一盘磁带。
磁带不支持随机读取,如果你要恢复某个磁带中某一个文件,需要把整盘磁带都读出来。反复的卷磁带对磁带本身也是伤害。(好像后来的磁带改进了,可以单独读取文件,但是还要倒带读取)

现在机械硬盘已经很便宜了,买几个大容量机械硬盘用于本地备份的成本也不高,一个 22T 的硬盘现在应该在两千五六,三四个也够用了,每年通电检验下数据,恢复备份数据找起来也方便。
另外磁盘阵列不是备份,磁盘阵列是为了保证业务连续性的设备冗余,重要数据考虑多副本。

曾经我也考虑过磁带备份,现在我选择双网盘备份,目前备份了 70 多 T 数据。具体可以参考我这个帖子。
https://www.v2ex.com/t/961688
cndenis
344 天前
同意楼上, 买 4 个 20T 的盘比 60 个 1T 好管理得多
mantouboji
343 天前
对于楼主的情况,一个 tar 命令就够了,无论是多卷备份还是增量备份,这都是四十年前 UNIX 世界就解决得很好了。
weidaizi
343 天前
😀 之前看到 OP 的帖子,想了一下用磁带好像不太方便,昨天实现了一个冷备方案的小工具,可以看这个帖子: https://v2ex.com/t/1007499
oColtono
342 天前
@weidaizi 老哥效率很高啊,
@mantouboji 是的……现在就是怕多卷备份出现部分磁盘损坏,导致所有卷的备份都无法恢复。磁盘寿命长也是有存储条件的前提的……
@cndenis 已经有两套 60T 的 raid6 阵列在实时同步了,只是单纯想多一个备份保险
oColtono
342 天前
@laqow 磁带机有寿命的,不过挺长的,一般读取几十盘需要插入清洗带过一遍。
mantouboji
342 天前
@oColtono 反正 tar 命令的 M 选项不仅是对磁带有效,换成普通的.tar 文件也可以,你与其在这里看乱七八糟的发言,不如静下心来去研究 tar 命令的各个选项,找到你需要的东西。

60T 数据而言,如果是你自己私人的是一码事,如果是商业数据,需要考虑配置一个磁带库了,里面是一个或者两个磁带机,十几盘几十盘磁带,还有一个机械手,负责装载磁带。
oColtono
342 天前
@gregy 谢谢,认真读了一下你的帖子。我之前也想过上云。但是群晖的 hyper backup 经常备份到 10 几 T 的时候,就显示备份中断,已损毁。加上云端数据取回太慢+长期使用贵的问题,打算还是自己多搞两份备份算了。这两天关注了一下磁带价格,现在已经可以做到 20 块每 T 了。60T 也就 1200 。算上损耗,以及购买磁带机的钱,保存 10 年的价格也才 3000-4000 块
oColtono
342 天前
@mantouboji 明白,正在研究 tar 。带库我是上不起了,太贵了
gregy
342 天前
@oColtono
还是请 OP 再斟酌一下磁带的使用,现在企业级中小规模的数据备份很多都是在用虚拟带库了,所谓的虚拟带库也就是磁盘阵列模拟的带库,目的是为了兼容之前老的备份策略和备份软件。一些没有历史包袱的小规模备份直接就上备份一体机,备份的介质是磁盘阵列。
磁带看似廉价的购买成本,后期带来可能是昂贵的使用成本,以及磁带无法读取造成的数据损失。

我上云备份的契机是经历了河北的大水,洪水过境啥都没了。。。上了云备份用作灾备。
oColtono
342 天前
@gregy 河北大水……原来如此,我今年先看看能不能先把这堆东西里面比较重要的部分上云吧

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1006813

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX