1
marchtea 2013-11-22 23:39:40 +08:00
关注,同求解答
|
2
9hills 2013-11-22 23:48:30 +08:00 1
定向抓取,问问Spider的RD就好了。
不过自己搞的话量不大的用Scrapy不错,有个参考 https://github.com/gnemoug/distribute_crawler 用Mongodb做存储,Redis做分布式队列 |
3
binux 2013-11-23 00:13:26 +08:00 2
我开源一个吧,特性:
* web方式写脚本+调试(甚至支持webdav通过外部编辑器编辑) * web管理查看进度,调整抓取速度,异常监控(用于监控模板变化) * 脚本支持定时,完全的抓取控制 * 多种调度方式(时间,etag,前链特殊标记调度) * 单机或分布式部署方式 * 支持多种底层存储方式,多种QUEUE方案,多下游 |
4
richiefans 2013-11-23 00:39:37 +08:00
@binux 太支持了
|
5
jiankangxin OP 最后自己写了个简单的spider
|