请教各位，通用spider的程序的几个问题？

最近想做一个通用的spider框架，可以针对不同的网站抓取信息，并进行处理。抓取方面用gevent+requests或者直接用scrapy，有几个问题想问：

1. 如何实现断点保存？抓取过程难免出错，有时出错必须重来，如何让程序从出错的地方继续抓下去？当然已抓的URL肯定已经保存了。

2. 要不要保存原始网页？以前都是抓取了直接处理，把有用的数据存储下来就行了。但是有时抓到一半发现有个重要的数据忘了爬下来，就又要改程序重抓一遍。看了42qu的教程用的是nginx 的cache保存网页的，但是抓多了非常占用空间，如何取舍？

3.如何实现爬虫的控制台？做一个后台页面控制爬虫的运行，停止，还有比如控制gevent pool的并发数，爬虫进程状态的汇报？用socket和爬虫进程通信？

4.爬虫的更新策略。爬虫抓过一次以后，该多长时间再来。有些有rss的网站相对简单，没有rss的网站怎么确定爬虫的更新频率？

写过不少相对简单的爬虫程序，但是以上这几个是我一直想解决或者完善的。各位有成功解决的经验吗？

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/69216

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.