求1牛逼网站爬取框架

This topic created in 4572 days ago, the information mentioned may be changed or developed.

RT。求推荐，Lucene+、utch 太老了

爬取

utch

5 replies • 1970-01-01 08:00:00 +08:00

marchtea

Nov 22, 2013

关注,同求解答

9hills

Nov 22, 2013

定向抓取，问问Spider的RD就好了。

不过自己搞的话量不大的用Scrapy不错，有个参考
https://github.com/gnemoug/distribute_crawler

用Mongodb做存储，Redis做分布式队列

binux

Nov 23, 2013

我开源一个吧，特性：
* web方式写脚本+调试（甚至支持webdav通过外部编辑器编辑）
* web管理查看进度，调整抓取速度，异常监控（用于监控模板变化）
* 脚本支持定时，完全的抓取控制
* 多种调度方式（时间，etag，前链特殊标记调度）
* 单机或分布式部署方式
* 支持多种底层存储方式，多种QUEUE方案，多下游

richiefans

Nov 23, 2013

@binux 太支持了

jiankangxin

Jan 20, 2014

最后自己写了个简单的spider