13T 的文件:近千万个几兆的小文件,在两台服务器之间备份同步,最好的方法是?

2019-06-13 08:35:54 +08:00
 kisshere

近千万个几百 K~几兆的小文件,目录存放是以 MD5 分割出来的四级目录,形如:/static/ac/bd/ef/blahblah.zip ,并且每天文件数量以几百个的增加,目前想要实时备份此服务器的数据:

  1. 看中了一台 4x12T 的服务器,想把生产环境和数据全部转移到这上面去,做 RAID10,我都不用考虑两台服务器同步备份的软件了,有硬盘坏了直接替换上去是不是就 OK 了,美滋滋
  2. rsync+inotify 对这种海量数据备份效果如何,新增一个文件,可不可以做到不扫描全部的“ static ”文件夹?立马将主服务器的该文件传输至备份服务器。有没有更好的专门针对这种海量数据备份软件?

先谢为敬

9847 次点击
所在节点    程序员
49 条回复
EPr2hh6LADQWqRVH
2019-06-13 10:38:53 +08:00
无脑 ceph
vincel
2019-06-13 10:39:42 +08:00
TFS 集群
AlohaV2
2019-06-13 10:42:33 +08:00
rsync
kisshere
2019-06-13 10:59:40 +08:00
@jamblues 楼上的 lsyncd 可不可以解决此问题
pyder
2019-06-13 11:31:07 +08:00
貌似是做 CV 的呀,应该全是图片,用来训练的。
zelin44913
2019-06-13 12:11:46 +08:00
rsync+inotify 只适合少量文件(十万以内)
zelin44913
2019-06-13 12:22:04 +08:00
既然有考虑采购服务器,不如采购一台群晖 nas, 然后配置 Cloud Sync 套件做实时同步增量备份至阿里云 OSS
okjb
2019-06-13 12:24:48 +08:00
今年 18 岁,申请上车😂
mdjxyz
2019-06-13 12:30:32 +08:00
上 minio 吧
loading
2019-06-13 12:31:41 +08:00
minio
cy97cool
2019-06-13 13:42:58 +08:00
seaweedfs
jamblues
2019-06-13 13:46:28 +08:00
@kisshere 文件多了都会在 I/O 上有瓶颈 无论是 rsync 还是 lsync 底层是绕不过的
iwannarun2
2019-06-13 13:48:35 +08:00
疑车无据
qile1
2019-06-13 13:52:59 +08:00
文件如果放那里只读取,为啥不按年月日存放,这样同步起来只同步每天的数据不是简单了?
Livid
2019-06-13 13:55:33 +08:00
试试这个?

https://juicefs.com/
cdlixucd
2019-06-13 14:11:11 +08:00
@jamblues 哦 所以说呢 没办法了吗
jamblues
2019-06-13 14:19:19 +08:00
@cdlixucd 解决方案就是多个小文件合成大文件 降维 减少 I/O 开销,推荐可以试试 pika 或者 ssdb,优势是支撑几 kw 问题不大 内置分布式 也不用自己维护同步 弱点是性能只有在 ssd 下才能体现 如果要求不高 普通硬盘也可以试试
cdlixucd
2019-06-13 14:29:42 +08:00
@jamblues 我们现在就遇到这个问题 都是在云平台上面 之前放在 google 对象存储里,也是有很多小的文件,然后要传到 AWS 对象存储 直接用的 rsync 来做的,先做一部分 后面切换平台再做增量的 你说的这种其实也还好 ,合成大文件后到目的端还是得拆开,一样的效果 真正的提升还是要对比吧
xiaogui
2019-06-13 14:45:48 +08:00
tar 分包
ps1aniuge
2019-06-13 14:53:20 +08:00
8 楼=唯一正解。
本地 mirror,远程 mirror。
任何方案都打不过 8 楼方案。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/573415

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX