请教各位,通用spider的程序的几个问题?

2013-05-17 15:52:25 +08:00
 bigdude
最近想做一个通用的spider框架,可以针对不同的网站抓取信息,并进行处理。抓取方面用gevent+requests或者直接用scrapy,有几个问题想问:

1. 如何实现断点保存?抓取过程难免出错,有时出错必须重来,如何让程序从出错的地方继续抓下去?当然已抓的URL肯定已经保存了。

2. 要不要保存原始网页?以前都是抓取了直接处理,把有用的数据存储下来就行了。但是有时抓到一半发现有个重要的数据忘了爬下来,就又要改程序重抓一遍。看了42qu的教程用的是nginx 的cache保存网页的,但是抓多了非常占用空间,如何取舍?

3.如何实现爬虫的控制台?做一个后台页面控制爬虫的运行,停止,还有比如控制gevent pool的并发数,爬虫进程状态的汇报?用socket和爬虫进程通信?

4.爬虫的更新策略。爬虫抓过一次以后,该多长时间再来。有些有rss的网站相对简单,没有rss的网站怎么确定爬虫的更新频率?

写过不少相对简单的爬虫程序,但是以上这几个是我一直想解决或者完善的。各位有成功解决的经验吗?
2472 次点击
所在节点    问与答
0 条回复

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/69216

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX