公司在做一批数据处理。 大致任务就是将 450 万的领域名词逐个去与 30 万的产品进行对比,得出与每个名词最相关的那一个产品。 “最相关产品”的计算过程是一个 python 写的 nlp 算法。目前使用公司内部的 Dell T430 Linux 服务器进行测试,每个名词的处理大概需要 30 秒。也就是说只用这一个服务器的话,处理完所有数据,大概需要一个半月的时间。老板希望总处理时间缩短到一个星期之内。 请问类似这种场景,有什么最佳实现吗?
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.