请教大家一个问题,先让我安利下这个项目 0.0 ,目前用 flask 写了个scrapy 的实时监控模块,代码虽然很丑陋,但是很好玩,使用也很方便,实现起来很简单,在 scrapy 运行的过程中,新建一个 middleware ,当有 request 经过 middleware 的时候,将当前 crawler 的状态保存到 redis ,这样在 redis 中就有实时的爬虫状态信息了,前端一直 ajax 获取 redis 里面的信息放到前端渲染出来就行了。
这是效果图
那么问题来了,目前是每一个 request 产生的时候就会保存一个当前信息,所以如果爬虫项目过大时, request 达到十万甚至百万级别的时候, redis 里面也会有相应数量的 stats 信息,这时候 redis 会不会占用很大的内存?这种情况有什么好的解决办法吗?谢谢各位 Dalao
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.