超大运算量的实现方案

公司在做一批数据处理。大致任务就是将 450 万的领域名词逐个去与 30 万的产品进行对比，得出与每个名词最相关的那一个产品。 “最相关产品”的计算过程是一个 python 写的 nlp 算法。目前使用公司内部的 Dell T430 Linux 服务器进行测试，每个名词的处理大概需要 30 秒。也就是说只用这一个服务器的话，处理完所有数据，大概需要一个半月的时间。老板希望总处理时间缩短到一个星期之内。请问类似这种场景，有什么最佳实现吗？

czfy

2021-02-20 11:50:34 +08:00

本质上就是要投入资源：
1. 投入人力资源，优化算法，成本是优化算法需要的时间对应的人力成本，当然有可能最后也优化不出来想要的效果，受硬件约束
2. 投入硬件资源，买服务器，成本是服务器使用费

lekai63

2021-02-20 11:53:13 +08:00

既然是跑算法。那看看各家云函数？好像 python 都是支持的。
云函数易扩展，搞大并发咯

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/754527

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.