诸位爬虫工程师使用什么平台/系统/开源项目来监控、维护和管理爬虫?

2018-04-04 13:42:15 +08:00
 Nick2VIPUser

公司爬虫刚起步,想找一个工具用来管理和维护未来写的爬虫,在此请教一下大家顺便多学一点东西。

平时写爬虫 requests 和 scrapy 都有用过。

5991 次点击
所在节点    Python
15 条回复
samding123
2018-04-04 14:23:16 +08:00
spiderkeeper
samding123
2018-04-04 14:23:48 +08:00
Nick2VIPUser
2018-04-04 15:41:59 +08:00
@samding123 昨天用过大神的项目,界面和功能特别棒!
但我把 egg 文件上传上去后,spider 就是显示不出来,然后暂时放下了-_-
beforeuwait
2018-04-04 16:18:42 +08:00
我也困惑
shuizhengqi
2018-04-04 16:48:27 +08:00
pyspider 吧
farverfull
2018-04-04 19:00:49 +08:00
OpsPlatform
Cryse
2018-04-04 19:43:23 +08:00
同样的疑惑,目前在用 scrapyd 和 spiderkeeper, 但是感觉 scrapyd 不太好用.
bazingaterry
2018-04-04 19:45:58 +08:00
我以前团队是自己写的,糅合 pyspider 和 scrapy
qsnow6
2018-04-04 22:17:28 +08:00
spiderkeeper
qwertty01
2018-04-05 08:30:56 +08:00
上架市场吧,用不了
qwertty01
2018-04-05 08:31:24 +08:00
Sorry,回复错了 0.0
Nick2VIPUser
2018-04-08 09:46:40 +08:00
@shuizhengqi 打算过段时间再学 pyspider -_-
@farverfull 您说的这个 OpsPlatform 搜不到额...
@bazingaterry 实在不行就打算自己写个轻量一点的爬虫平台,慢慢加功能
@qsnow6 我用 spiderkeeper 有点 bug 还没有解决 /哭
@beforeuwait 哈哈,那咱是同道中人
@Cryse scrapyd 没有 UI,但是可以自己写界面然后调用 scrapyd 文档提供的 API
my8100
2018-10-25 21:11:15 +08:00
scrapydweb:实现 Scrapyd 集群管理,Scrapy 日志分析和可视化 https://github.com/my8100/scrapydweb
my8100
2018-11-15 11:39:14 +08:00
@my8100 本站搜索:如何简单高效地部署和监控分布式爬虫项目
tikazyq
2020-01-10 20:14:15 +08:00
可以试试 Crawlab,非常灵活的分布式通用爬虫管理平台,支持任何框架和语言,当然包括 scrapy、selenium、puppeteer 等等

https://github.com/crawlab-team/crawlab

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/444271

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX