关于 scrapy 分布式管理

2017 年 11 月 24 日
 aragakiiyui

最近在使用 scrapy-redis 做分布式爬虫,目前考虑写一个扩展,主要可以实现:

这里遇到一些问题,爬虫代码保存在哪里?然后通过什么方法来运行这份爬虫代码? 目前我的方案是:

不过感觉这样好麻烦啊,估计会碰到很多坑,不知道各位 v 友有没有什么更优的方式,实现我这个需求。

4130 次点击
所在节点    Python
10 条回复
owenliang
2017 年 11 月 24 日
自己部个 marathon 或者 k8s,然后通过 api 启动实例?
aragakiiyui
2017 年 11 月 24 日
@owenliang = =不会啊,还没用过。
Chrics
2017 年 11 月 24 日
> 然后点击运行按钮,就能够自动启动一个 scrapy 实例。

这个顺序反了吧,应该是启动一个 scrapy 实例,向中央服务器注册?
sunwei0325
2017 年 11 月 24 日
试试 spiderkeeper
hcnhcn012
2017 年 11 月 24 日
Heroku 把,它可以和你的 git 联动
SlipStupig
2017 年 11 月 24 日
如果用 docker 的话,强力推荐 rancher
aragakiiyui
2017 年 11 月 25 日
@sunwei0325 那个项目部署方式太蛋疼了,界面可以参考一下,但是调度方式还是得写一套。
sunwei0325
2017 年 11 月 25 日
@aragakiiyui [捂脸]我还觉得挺好用的, 有 api 直接写好脚本打包 egg, 上传到 scrapyd 服务器
tikazyq
2017 年 11 月 25 日
有一个现成的轮子,需要配置 scrapyd

https://github.com/DormyMo/SpiderKeeper
my8100
2018 年 11 月 14 日
@aragakiiyui 如何简单高效地部署和监控分布式爬虫项目 www.v2ex.com/t/507933

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/409279

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX