在做一个爬虫程序,图片的服务器用的是qiniu
。
要求:
现在碰到一个问题,就是爬一个链接的时候,大量的时间都耗费在了上传图片上。怎么样提高爬取单个链接的效率?
我先提一种解决方案:
先爬站的内容,然后图片用原始的图片链接。然后用工作线程循环查找还有哪些图片没有上传的,依次上传。但是感觉这种设计很复杂,工作线程要查找每个图片的字段,如果以后有新的图片字段,那么这部分逻辑又需要改。
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.