求1牛逼网站爬取框架

2013-11-22 20:01:49 +08:00

jiankangxin

RT。求推荐，Lucene+、utch 太老了

2781 次点击

所在节点

问与答

5 条回复

marchtea

2013-11-22 23:39:40 +08:00

关注,同求解答

9hills

2013-11-22 23:48:30 +08:00

定向抓取，问问Spider的RD就好了。

不过自己搞的话量不大的用Scrapy不错，有个参考
https://github.com/gnemoug/distribute_crawler

用Mongodb做存储，Redis做分布式队列

binux

2013-11-23 00:13:26 +08:00

我开源一个吧，特性：
* web方式写脚本+调试（甚至支持webdav通过外部编辑器编辑）
* web管理查看进度，调整抓取速度，异常监控（用于监控模板变化）
* 脚本支持定时，完全的抓取控制
* 多种调度方式（时间，etag，前链特殊标记调度）
* 单机或分布式部署方式
* 支持多种底层存储方式，多种QUEUE方案，多下游

richiefans

2013-11-23 00:39:37 +08:00

@binux 太支持了

jiankangxin

2014-01-20 11:09:02 +08:00

最后自己写了个简单的spider

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/90249

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.