关于 scrapy 分布式管理

2017-11-24 16:56:49 +08:00

aragakiiyui

最近在使用 scrapy-redis 做分布式爬虫，目前考虑写一个扩展，主要可以实现：

这里遇到一些问题，爬虫代码保存在哪里？然后通过什么方法来运行这份爬虫代码？目前我的方案是：

不过感觉这样好麻烦啊，估计会碰到很多坑，不知道各位 v 友有没有什么更优的方式，实现我这个需求。

3430 次点击

所在节点

10 条回复

owenliang

2017-11-24 17:14:58 +08:00

自己部个 marathon 或者 k8s，然后通过 api 启动实例？

aragakiiyui

2017-11-24 17:29:51 +08:00

@owenliang = =不会啊，还没用过。

Chrics

2017-11-24 17:56:10 +08:00

> 然后点击运行按钮，就能够自动启动一个 scrapy 实例。

这个顺序反了吧，应该是启动一个 scrapy 实例，向中央服务器注册？

sunwei0325

2017-11-24 18:34:52 +08:00

试试 spiderkeeper

hcnhcn012

2017-11-24 18:47:58 +08:00

Heroku 把，它可以和你的 git 联动

SlipStupig

2017-11-24 19:37:50 +08:00

如果用 docker 的话，强力推荐 rancher

aragakiiyui

2017-11-25 13:31:52 +08:00

@sunwei0325 那个项目部署方式太蛋疼了，界面可以参考一下，但是调度方式还是得写一套。

sunwei0325

2017-11-25 22:42:15 +08:00

@aragakiiyui [捂脸]我还觉得挺好用的, 有 api 直接写好脚本打包 egg, 上传到 scrapyd 服务器

tikazyq

2017-11-25 23:47:01 +08:00

有一个现成的轮子，需要配置 scrapyd

https://github.com/DormyMo/SpiderKeeper

my8100

2018-11-14 23:58:28 +08:00

@aragakiiyui 如何简单高效地部署和监控分布式爬虫项目 www.v2ex.com/t/507933

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.