从服务器下载大文件的最好方法是?

2015-09-23 20:08:21 +08:00
 htfy96
之前在 aliyun 租了个 vps 做爬虫,现在爬虫完成后大概获得了 15G 的数据(已压缩)

这边网络最多 1MBps ,估计要下载很长时间,网上有人提到了 scp ,但是好像不能断点续传。现在服务器上什么也没有(ftp/http 服务器)。请问有什么比较好的方法把数据拖下来呢?
29795 次点击
所在节点    Linux
84 条回复
002jnm
2015-09-23 21:21:29 +08:00
我试过迅雷可以超过 1M 宽带。不知道为什么
002jnm
2015-09-23 21:22:00 +08:00
。。我以为你阿里云 1m 宽带。。。当我没说。
letitbesqzr
2015-09-23 21:39:35 +08:00
@ryd994
@loading
@JustZht
bypy 这东西必须需要申请 PCS API ,请问现在在哪里申请?百度那东西老改版 根本找不到地方了
JustZht
2015-09-23 21:45:24 +08:00
@letitbesqzr 初次使用 bypy 程序会提示的吧...会给个链接 然后浏览器进去就能拿到 token 我记得一个月前还试了一次
miemiekurisu
2015-09-23 22:07:28 +08:00
………………架个 Nginx ,直接 aria2c -c -x15 -s 15 拖下来
likuku
2015-09-23 22:09:48 +08:00
压缩了就不好用 rsync 了... rsync 适合大量小文件...
likuku
2015-09-23 22:11:27 +08:00
vps 不差空间的话,那就分成很多小卷,再用 rsync 拖。

btsync 也可以试试。。假若可能通讯的话。
anjouslava
2015-09-23 22:15:22 +08:00
可以用 SFTP ,支持断点续传,用 WinSCP , SSH 登录就行,默认应该是 100kb 以上文件启用断点续传,不过建议还是设置为所有文件
a1058021348
2015-09-23 22:23:02 +08:00
我都是用 Nginx+IDM 开 32 个线程下载的。。。。就算是美国 VPS 也能跑满百兆带宽。。。
Aliencn
2015-09-23 22:46:50 +08:00
往阿里云上传数据不限速,但是从阿里云下载速度就会限速了(阿里云服务器的带宽限制)
最快的方法是通过内网传到阿里云 oss 上(内网不限速),然后你在从 oss 上下载(受你带宽限制)
ryd994
2015-09-23 23:12:24 +08:00
@letitbesqzr bypy 自带一个,可以用的
maskerTUI
2015-09-24 00:21:19 +08:00
xftp
iamnuomi
2015-09-24 00:35:25 +08:00
都闪开,用 UDP 才是王道

tsunami-udp

tsunami-udp 是一款专为网络加速诞生的小工具。 思路很简单,使用 TCP 进行传输控制、用 UDP 进行数据传输。

这样可以无状态的进行数据传输,然后中间加一些文件校验和重传机制,达到加速传输的目的。

传统的 tcp 传统,基于长连接,很容易受网络波动的影响。特别是网络拥塞的情况下,只能通过多进程 /线程来进行有序传输。

https://github.com/cheetahmobile/tsunami-udp/wiki



udt

UDT is a reliable UDP based application level data transport protocol for distributed data intensive applications over wide area high-speed networks. UDT uses UDP to transfer bulk data with its own reliability control and congestion control mechanisms. The new protocol can transfer data at a much higher speed than TCP does. UDT is also a highly configurable framework that can accommodate various congestion control algorithms. (Presentation: PPT 450KB / Poster: PDF 435KB )

http://udt.sourceforge.net/
akira
2015-09-24 00:40:20 +08:00
晚上快 12 点的时候提升临时带宽到 100M ,瞬间下完
webjin
2015-09-24 01:13:47 +08:00
叫阿里云的人打包刻录光盘或者 U 盘,然后快递
oott123
2015-09-24 01:28:09 +08:00
https://github.com/oott123/bpcs_uploader
对大文件比 bypy 要稍好…(因为直接调用 curl 命令行
还内置一个 key …
davidyin
2015-09-24 01:36:09 +08:00
去网吧下载比较快
JasonQ
2015-09-24 01:37:50 +08:00
所以我就不能理解 1m 的带宽这主机怎么用啊...
同等价格的 bandwagon 服务比阿里云好多了啊。
49
2015-09-24 06:15:23 +08:00
@iamnuomi 终于有人说 UDT 了喵('・ω・')
ryd994
2015-09-24 07:15:17 +08:00
@oott123 bypy 可以直接用啊,为啥大家都觉得它要 key ?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/223183

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX