multiprocess.Queue 造成的性能问题

2019-08-24 11:51:30 +08:00
 dbow
一天抓取千万级别 html 网页, 需要用并行的方式实时解析网页, 但是 lxml 性能太挫, 换成 pugixml 之后也还不够速度, 同时得用 24 核心并行处理, 最后并行跑了半天内存爆了。
找原因发现, 是 multiprocess.Queue 有 get(), put()有严重的性能问题, 出入一下, 需要 0.1s 之久, 太糟糕。 然后就是换成用 redis 出入队列在多进程之间共享数据, 问题解决。

https://imgur.com/MlqCPuh
956 次点击
所在节点    Python
0 条回复

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/594706

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX