爬虫上传图片的问题

2016-02-16 13:33:33 +08:00

ufo22940268

在做一个爬虫程序，图片的服务器用的是qiniu。

要求：

现在碰到一个问题，就是爬一个链接的时候，大量的时间都耗费在了上传图片上。怎么样提高爬取单个链接的效率？

我先提一种解决方案：
先爬站的内容，然后图片用原始的图片链接。然后用工作线程循环查找还有哪些图片没有上传的，依次上传。但是感觉这种设计很复杂，工作线程要查找每个图片的字段，如果以后有新的图片字段，那么这部分逻辑又需要改。

2267 次点击

所在节点

8 条回复

myoula

2016-02-16 13:52:53 +08:00

我用的方法是先把图片的地址纪录在一个文件里
http://www.xxx.com/xxx/xxx.jpg
...

然后用 wget 批量下载
最后用 qiniu-cli 的工具批量上传

ufo22940268

2016-02-16 13:55:51 +08:00

好像回源是解决这个问题的比较好的方案

https://support.qiniu.com/hc/kb/article/112824/

virusdefender

2016-02-16 14:09:01 +08:00

异步和多线程

sarices

2016-02-16 14:12:47 +08:00

放到队列处理啊

Karblue

2016-02-16 16:45:46 +08:00

1.多线程爬和传(可以一个队列专门处理爬虫投递过来的链接)
2.先爬。爬完再批量传

cloverstd

2016-02-16 17:34:42 +08:00

muziyue

2016-02-16 17:59:49 +08:00

根本不用下载再上传呀，设置好镜像可以直接存到七牛里面的

jedyu

2016-02-16 18:09:33 +08:00

爬链接和爬图片不要线性执行，多线程或多进程都可以

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.