13T 的文件:近千万个几兆的小文件,在两台服务器之间备份同步,最好的方法是?

2019-06-13 08:35:54 +08:00
 kisshere

近千万个几百 K~几兆的小文件,目录存放是以 MD5 分割出来的四级目录,形如:/static/ac/bd/ef/blahblah.zip ,并且每天文件数量以几百个的增加,目前想要实时备份此服务器的数据:

  1. 看中了一台 4x12T 的服务器,想把生产环境和数据全部转移到这上面去,做 RAID10,我都不用考虑两台服务器同步备份的软件了,有硬盘坏了直接替换上去是不是就 OK 了,美滋滋
  2. rsync+inotify 对这种海量数据备份效果如何,新增一个文件,可不可以做到不扫描全部的“ static ”文件夹?立马将主服务器的该文件传输至备份服务器。有没有更好的专门针对这种海量数据备份软件?

先谢为敬

9847 次点击
所在节点    程序员
49 条回复
a852695
2019-06-13 08:51:04 +08:00
rsync 本身就是增量的吧
JingKeWu
2019-06-13 09:00:46 +08:00
内网环境 先用 nc+tar 全部打包传输过去 增量用 lsyncd
dianso
2019-06-13 09:06:33 +08:00
nc 开端口同步啊
zycpp
2019-06-13 09:10:06 +08:00
就算每天增加 1000 个,这 1 千万的量都要累积二十多年……好奇这是啥数据?

天文?地理信息?
mattx
2019-06-13 09:12:34 +08:00
@zycpp 说不定是海量的 种子 文件
liangkang1436
2019-06-13 09:16:25 +08:00
@mattx 老哥稳!开车吗?
luozic
2019-06-13 09:16:57 +08:00
這麽多 還不上文件數據庫來存?
ldrljq
2019-06-13 09:23:05 +08:00
支持 Mirror 模式的磁盘阵列加光纤,复制是基于块模式的,还可以组建双活和高可用。
silencefent
2019-06-13 09:24:21 +08:00
rsync 转移到 nas 盘里,比维持服务器磁盘要便宜得多
mattx
2019-06-13 09:38:37 +08:00
@liangkang1436 种子 可以通过 种子爬虫来获得, 我只是猜测下, 不一定是真实情况.
luozic
2019-06-13 09:40:19 +08:00
同步的時候直接用數據庫日志備份 or 增量備份就行。
DestinyHunter
2019-06-13 09:46:37 +08:00
我仿佛看到了你在开车
kisshere
2019-06-13 09:56:37 +08:00
@DestinyHunter
@mattx 真不是种子
wweir
2019-06-13 09:58:54 +08:00
磁盘块拷贝?
lvzhiqiang
2019-06-13 10:14:20 +08:00
目前我们生产环境的静态文件同步就是通过 rsync+inotify 方式同步备份的。
pxw2002
2019-06-13 10:19:09 +08:00
rsync+inotify
就是增量的呀
Tink
2019-06-13 10:34:28 +08:00
rsync
oott123
2019-06-13 10:35:00 +08:00
值得提醒的是 raid 不是备份
jamblues
2019-06-13 10:36:09 +08:00
相信我,inotify 文件多了,每次机器重启或者服务重启 I/O 会卡到你怀疑人生。

目前比较实用的方案就是用 K/V 方案存 leveldb 类似的产品(如 ssdb 或 pika )做集群。
HarrisonZ
2019-06-13 10:37:45 +08:00
不如直接 s3 或者 oss

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/573415

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX