python 爬虫怎么把 url 类似于 www.xxx.com/0001.jpg 到 www.xxx.com/9999.jpg 范围的图片保存到本地啊

2016-02-22 14:58:06 +08:00
 raighne
7733 次点击
所在节点    Python
46 条回复
ChefIsAwesome
2016-02-22 17:23:34 +08:00
我不是搞 python 的,不了解 python 爬虫的机制,只是看到这帖子好奇,顺便问下:上万个图片下载,一个下完接下一个么?会不会太慢,中间出错了怎么办
YUX
2016-02-22 17:25:10 +08:00
@ChefIsAwesome 错了 pass
DaCong
2016-02-22 17:38:28 +08:00
强烈建议各位在发帖的时候不要再使用 xxx.com 作为域名的示范,实在不行用 google.com 虚构一个也好啊
raighne
2016-02-22 17:51:04 +08:00
@DaCong 明白了,多谢提醒
zhjits
2016-02-22 20:58:40 +08:00
@DaCong URL 里面的 host 标准示例: example.com (可戳)
lhbc
2016-02-22 21:30:07 +08:00
curl -O "http://www.xxx.com/[0001-9999].jpg"
Frapples
2016-02-22 21:56:06 +08:00
@ChefIsAwesome 可以使用多线程下载,比如开五个线程同时下载五张图片,带宽足够就能加速 5 倍。当然实际考虑的情况还有其它的因素。
mianju
2016-02-22 22:41:41 +08:00
要不开十个线程,每个线程下 1000 个图片?
SlipStupig
2016-02-22 22:49:10 +08:00
import urllib2, os

downloader = lambda number:[(open(str(k), 'wb').write(urllib2.urlopen('http://baidu.com/%s' % i).read())) for i in xrange(number) for k in xrange(number)]
print downloader(999)
raysonx
2016-02-22 22:58:54 +08:00
@DaCong RFC 中保留了 gTLD 中的 example.com example.orgexample.net 作为示范域名
MyFaith
2016-02-22 23:15:46 +08:00
楼主问的是 Python ,为什么回复都是 shell ?改变了问题的本意
macroideal
2016-02-22 23:47:38 +08:00
讯雷都这个功能.
imlinhanchao
2016-02-23 00:20:22 +08:00
@MyFaith 同问。
toono
2016-02-23 03:04:02 +08:00
有地址的话,迅雷的批量下载可以根据表达式下载 XD
Liang
2016-02-23 08:36:01 +08:00
迅雷下载啊,哥哥
dawncold
2016-02-23 08:45:52 +08:00
@yougg 我的 zsh 也是可以的, zsh 5.0.2 (x86_64-pc-linux-gnu)
billion
2016-02-23 09:01:13 +08:00
import requests
content = requests.get('http://xxx.com/1.jpg').content
with open('1.jpg', 'wb') as f:
f.write(content)
laobaozi
2016-02-23 09:10:10 +08:00
我点开了链接.......
楼主是想干什么
latteczy
2016-02-23 09:39:12 +08:00
我记得有个 retrive 方法,可能拼写不对
firemiles
2016-02-23 10:44:24 +08:00
curl http://example.com/pic[0001-9999].jpg

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/258233

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX