爬虫并发下载文件(求助)

2019-12-25 10:36:45 +08:00
 BryceBu

我需要下载某个网站上的多个文件,本来用 requests,但是下载速度非常慢,而且是同步的

查了一些资料后发现这个库:grequests

人家基本是这么用:

urls = ['http://letiantian.me/'] * 10

req = (grequests.get(u) for u in urls)

resp = grequests.map(req, size=10) # 10 个并发

但是我仿照这样写了以后,得到的结果 with open 后不是正确的文件,哪位大佬知道如何异步爬取文件并保存?

1774 次点击
所在节点    问与答
10 条回复
gwy15
2019-12-25 10:48:22 +08:00
用 aiohttp
BryceBu
2019-12-25 11:58:13 +08:00
@gwy15 试过了,爬下来是 1kb。。。

<a href="https://sm.ms/image/JAXNikaO5GgCpEs" target="_blank"><img src="https://i.loli.net/2019/12/25/JAXNikaO5GgCpEs.png" ></a>
1462326016
2019-12-25 11:58:31 +08:00
1 楼正解
1462326016
2019-12-25 11:59:36 +08:00
如果爬取的文件不正常的话那么就是你发送的请求有问题。requests 和 aiohttp 基本用法是一致的
rimutuyuan
2019-12-25 12:00:58 +08:00
爬取成功后加到队列,依次保存
BryceBu
2019-12-25 12:01:21 +08:00
@1462326016
返回码是 [200 OK]
1462326016
2019-12-25 12:05:05 +08:00
@BryceBu 不能光看状态码,还有下载下来的文件是不是正常的,如果请求一样的话,只是异步发送的,那么同样的 URL 下载的内容应该是一样的。如果可以的话贴个网址大家看下
gwy15
2019-12-25 12:35:52 +08:00
如果不是文件大到内存装不下,不需要按 stream 读。直接
data = await resp.read()
with open(): write
就可以了。

你只传了 cookie 和 params,很大概率是因为 UA、host、referer 之类的被挡下来了,自己检查下就知道了。
ixuuux
2019-12-25 14:01:04 +08:00
#2 写入文件的方式有误,改为 ab 试下
![6435a8b4c9163e28fbd8a66451a744b7]( http://tvax3.sinaimg.cn/large/005WOYz1ly1ga8xhtkpusj30hv052q3n.jpg)
whoops
2019-12-25 18:29:56 +08:00
不是解答你 问题的答案,但是可以参考一下
python 爬虫把要下载的文件丢给 aria2 去下载

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/632084

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX