要做一个 scrapy 的集群管理平台,看了 Github 的项目。
scrapydweb 比较活跃,新一点。
spiderkeeper 已经一两年没有更新了,star 比较多。
scrapydweb 和 spiderkeeper 有什么区别?
有用过的 v 友说一下。
1
zqjilove 2019-08-22 16:33:00 +08:00
scrapydweb 功能完善,目前首选,spiderkeeper 没用过,大致对比过
|
2
lshu 2019-08-22 16:36:22 +08:00
说白了 一个新小区,一个老小区。都是基于 scrapyd 的封装。
|
3
locoz 2019-08-22 16:43:49 +08:00
我赌五毛,不超过半天时间 tikazyq 老哥就会来给你推荐 crawlab
|
5
tikazyq 2019-08-22 17:05:06 +08:00 1
@locoz 不会来硬推了,大家都看烦了。。。来推一下几个平台的对比吧。
https://juejin.im/post/5d5298f05188255f7c1c4979 "总的来说,SpiderKeeper 可能是最早的爬虫管理平台,但功能相对来说比较局限; Gerapy 虽然功能齐全,界面精美,但有不少 bug 需要处理,建议有需求的用户等待 2.0 版本; Scrapydweb 是一个比较完善的爬虫管理平台,不过和前两者一样,都是基于 scrapyd 的,因此只能运行 scrapy 爬虫;而 Crawlab 是一个非常灵活的爬虫管理平台,可以运行 Python、Nodejs、Java、PHP、Go 写的爬虫,而且功能比较齐全,只是部署起来相对于前三者来说要麻烦一些..." |
9
my8100 2019-08-22 23:50:03 +08:00 via iPhone 2
1. 可靠性:持续集成,目前代码覆盖率 > 89%。
2. 实用性:集成 LogParser,爬虫进度可视化,基于 Scrapy 日志分析的监控和警报。 3. 可扩展性:在爬虫集群的任意多个节点实现一键操作,包括部署,运行,停止和删除项目,汇总分布式爬虫的日志分析报告等。 4. 权威性:Scrapyd 开发者成员之一,及时适配新版本新特性。 在线体验就完事了: https://scrapydweb.herokuapp.com/ |
11
my8100 2019-08-23 09:58:35 +08:00 via iPhone 1
“请尽量让自己的回复能够对别人有帮助”
|
12
15399905591 2019-08-29 09:07:48 +08:00
之前使用 spiderkeeper + scrapyd 进行部署,bug 真的是一大堆,都不知道从那里入手(很多 bug 并不是 spiderkeeper 的问题,而是使用 scrapyd 的原因),后来使用干脆使用 docker 打包解决了,不过调度得自己写。
|