关于 scrapy 分布式管理

2017-11-24 16:56:49 +08:00
 aragakiiyui

最近在使用 scrapy-redis 做分布式爬虫,目前考虑写一个扩展,主要可以实现:

这里遇到一些问题,爬虫代码保存在哪里?然后通过什么方法来运行这份爬虫代码? 目前我的方案是:

不过感觉这样好麻烦啊,估计会碰到很多坑,不知道各位 v 友有没有什么更优的方式,实现我这个需求。

3430 次点击
所在节点    Python
10 条回复
owenliang
2017-11-24 17:14:58 +08:00
自己部个 marathon 或者 k8s,然后通过 api 启动实例?
aragakiiyui
2017-11-24 17:29:51 +08:00
@owenliang = =不会啊,还没用过。
Chrics
2017-11-24 17:56:10 +08:00
> 然后点击运行按钮,就能够自动启动一个 scrapy 实例。

这个顺序反了吧,应该是启动一个 scrapy 实例,向中央服务器注册?
sunwei0325
2017-11-24 18:34:52 +08:00
试试 spiderkeeper
hcnhcn012
2017-11-24 18:47:58 +08:00
Heroku 把,它可以和你的 git 联动
SlipStupig
2017-11-24 19:37:50 +08:00
如果用 docker 的话,强力推荐 rancher
aragakiiyui
2017-11-25 13:31:52 +08:00
@sunwei0325 那个项目部署方式太蛋疼了,界面可以参考一下,但是调度方式还是得写一套。
sunwei0325
2017-11-25 22:42:15 +08:00
@aragakiiyui [捂脸]我还觉得挺好用的, 有 api 直接写好脚本打包 egg, 上传到 scrapyd 服务器
tikazyq
2017-11-25 23:47:01 +08:00
有一个现成的轮子,需要配置 scrapyd

https://github.com/DormyMo/SpiderKeeper
my8100
2018-11-14 23:58:28 +08:00
@aragakiiyui 如何简单高效地部署和监控分布式爬虫项目 www.v2ex.com/t/507933

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/409279

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX