scrapy 部署之后是怎么和后台管理传递信息的？

（多个） scrapy 的脚本通过 scrapyd 部署之后，如果也使用了后台管理如 scrapydweb ，

那具体的 scrapy 和 scrapydweb 是怎么传递信息的

比如传递 scrapy 抓取了 N 个 items ，parse 了 M 个 pages

scrapy 向 scrapydweb 发送消息？还是 scrapydweb 向发送 scrapy 请求？

这样的传递消息是怎么实现的。

Kobayashi

2021-11-09 15:06:18 +08:00

我记得就是解析 scrapy 爬虫输出。好像作者依赖一个叫做 logparser 的库，也是自己写的。没研究过如何实现的。

featureoverload

2021-11-09 15:50:08 +08:00

@Kobayashi 嗯，是有一个 logparser 库的东西。

不过还想了解除了 log 含有的信息之外，还有没有其它消息传递。

Kobayashi

2021-11-09 15:59:39 +08:00

可能没有，从名字看就是解析输出做统计。

ScrapydWeb 管理已经是这方面做的最好的。
崔庆才自己书里推荐的 Gerapy 完全就是狗屎，运行连个错误输出都没有，运行不起来你都无法调试。而且项目就是半成品，还没有实现完全 scrapyd 所有 API ，星都是靠书的流量拉的小白点的，绝对没有人生产中用。
Crawlab 没有采用 scrapyd 运行爬虫，基本就是直接管理命令行进程。因为没有采用 Scrapy 官方推荐的 scrapyd ，没有尝试过，不确定有没有这方面功能，有兴趣你可以看看它怎么做的。估计即便作了也是输出解析。

我记得 Scrapy 只会运行过程中利用 telnet 与运行的进程做交互，理论上可以直接获取进程中的一部分信息。但没听说过有人这么做。

lshu

2021-11-09 16:19:29 +08:00

继承或者自定义类似“scrapy.extensions.logstats.LogStats”的扩展，定时将其属性中的“stats”序列化，然后通过 api 等操作保存到数据库提供其他服务查询

lithium4010

2021-11-09 16:23:00 +08:00

可以直接写数据库？

996635

2021-11-09 16:23:20 +08:00

twisted 监听了信号量做处理, 同时内部 extension 还实现了一个 tcp server 可以通过通信, 抓了多少是内部维护了个计数器, 默认是内存计数
具体看 https://github.com/scrapy/scrapy/tree/master/scrapy/extensions

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/814102

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.