有这么一个问题,一直很困扰,就是关于海量的大数据文件传输问题。 环境: 企业局域网传输,数据文件都在华为的分布式存储里,然后通过 CIFS 进行共享工作。 由于某个项目文件夹需要迁移,而这个文件夹内容几乎达到了 100TB 的内容,现在将这部分文件夹冻结进行迁移出这个分布式存储,然后就尴尬了。
传输速度峰值也就 250M 左右,用的是第三方工具叫 fastcopy 程序,这样大家也可以理解,是通过客户端,使用第三方软件,再到分布式存储共享文件夹,迁移到另一个异地环境,当然网络还是在同一个局域网里。
因为是分布式存储,我们也无法使用 rsync 这样的工具来进行镜像同步。问了售后的官方华为,给的方案也不是很理想,靠第三方工具来进行传输,而华为自家的传输工具也只能在同等环境下进行传输,也就是迁移的对象也是分布式存储系列。
然后,文件夹的内容是杂乱的,大大小小的都有,当然这里面的内容也不用去管它,我曾想过进行压缩,但这么多的海量文件,压缩起来也是非常耗时的。
不知道在 v2 的各位有什么好的建议吗?
我现在只能寄托于网络上进行找突破,在客户端设备硬盘条件 OK 的情况下,用堆叠网线来进行传输。当然用光纤也是不行,即使我的客户端设备有光纤网卡,但分布式存储环境并不支持。
1
Mithril 235 天前 1
看看他们有没有基于硬盘的数据迁移功能,让他们直接导出所有数据到一些硬盘里,然后把硬盘过去挂机柜上恢复。
|
3
Mithril 235 天前
@brando 没太用过华为云,不过 AWS 有类似的服务: https://aws.amazon.com/cn/snowball/
他会寄给你一个设备,你把它连到本地服务器,然后把数据复制进去。寄回去以后他们会把数据传到 S3 或者类似的服务里。 也可以用于从 S3 导出数据。 这种方式用于导入导出大量数据非常有效。 AWS 很久以前用的是硬盘邮寄完成这种工作的。不知道华为云是不是提供类似的服务,你可以咨询一下他们的销售。 |
4
brando OP @Mithril #3 我这是企业私有云(就是企业内部服务群集),您说的这种是数据用公有云,我们客户端传输的速度给公有云会直接死翘翘的,如果是公有云,一般直接在线扩容(或者你说的 AWS ,直接用 AZCOPY 这种功能),关键我们这边不想再部署那么大的服务群集在本地了,毕竟机房限制也会有瓶颈。
EMMMMMM ,我另外再想想办法突破下。 |
5
dode 235 天前
中转机器安装全套的固态硬盘,并且挂载选项关闭同步写入缓存
|
6
Mithril 235 天前
@brando 你说华为的分布式存储我还以为你用的是华为云。是那个存储设备是吧?那就更简单了。
直接存储上挂硬盘,数据复制到硬盘里,然后硬盘拿到目的机房挂到服务器上导入进去。 不过虽然一般大容量的文件传输不会走网线,但你这网络速度都已经能到平均 250MB/S ,用硬盘迁移也快不了多少的。你挂 USB 顶多 500MB/S ,然后你到目的机器还得读出来。SATA 极限速度也就差不多这样了,除非你用 SSD 。个人感觉还不如想办法去优化网络。 |
7
brando OP @Mithril #6 存储是分布式的,不能直接挂靠硬盘,分布式的存储方式和普通的存储是两回事。大容量的数据是可以走网线的,但目前资金有限,没法在升级网络硬件的情况下,有个叫 RoceV2 的协议,当然现在是只能从现有的环境条件去一步步分析了。
客户端设备硬盘是 M2 的,但这个不是问题所在,就是你最后所说的,还是核心网络方面有点问题,毕竟网卡都 20G ,40G 了。(我是后妈,对前期的资源或设置是不了解嘀) 挂靠移动硬盘毕竟是有风险存在的,并不是很可靠,对企业来说是个硬伤,何况数据是几十 TB 的文件了。 |
9
Mithril 235 天前
@brando 可能我没说清,不是直接把硬盘挂上去,而是用一台带高速网卡的机器直连,然后那台机器写硬盘。
这个硬盘只是用来转移数据的,你自己应该还是有校验的。 不过你说得对,还是先搞网络吧。就算你现在核心网有问题,这速度也比你折腾这个硬盘方案快。 |
10
bt7vip 234 天前 via Android
是单链路峰值 250m 吗,如果是的话,一个存储挂多台设备,然后文件夹分类,A 机器传 A-C 文件夹,B 机器传 D-G 文件夹,这样链路聚合宽带会加快速度,省钱费时间,要想快就找供应商提供全闪对拷,但机器进到机房和接入存储要走不少流程,需要你的供应商协调好。
|
11
lbp0200 234 天前
很简单,邮政快递
|
12
ntedshen 234 天前
既不让物理接。。。
又理不清配置。。。 协议还换不掉。。。 瓶颈也不知道。。。 神仙难救。。。 |