求1牛逼网站爬取框架

2013-11-22 20:01:49 +08:00
 jiankangxin
RT。求推荐,Lucene+、utch 太老了
2730 次点击
所在节点    问与答
5 条回复
marchtea
2013-11-22 23:39:40 +08:00
关注,同求解答
9hills
2013-11-22 23:48:30 +08:00
定向抓取,问问Spider的RD就好了。

不过自己搞的话量不大的用Scrapy不错,有个参考
https://github.com/gnemoug/distribute_crawler

用Mongodb做存储,Redis做分布式队列
binux
2013-11-23 00:13:26 +08:00
我开源一个吧,特性:
* web方式写脚本+调试(甚至支持webdav通过外部编辑器编辑)
* web管理查看进度,调整抓取速度,异常监控(用于监控模板变化)
* 脚本支持定时,完全的抓取控制
* 多种调度方式(时间,etag,前链特殊标记调度)
* 单机或分布式部署方式
* 支持多种底层存储方式,多种QUEUE方案,多下游
richiefans
2013-11-23 00:39:37 +08:00
@binux 太支持了
jiankangxin
2014-01-20 11:09:02 +08:00
最后自己写了个简单的spider

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/90249

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX