[LLM] 有哪位大佬指点下如何在 cpu 上分布式推理

2023-11-16 18:16:33 +08:00

rizon

我有很多 32 核的 cpu 机器，想要跨这些机器使用所有的 cpu 算力进行推理。
这个该怎么做啊？

是不是部署 k8s 集群就可以，还是有更简单的办法？

还是说用分布式的 spark 等计算框架？但是具体该怎么搞呢。没头绪

1540 次点击

所在节点

8 条回复

murmur

2023-11-16 18:28:09 +08:00

你做科学计算么，有的科学计算是 cpu 运算+大内存，不过也不是用框架，直接买现成的软件，比如电磁学的 feko

rizon

2023-11-16 19:35:36 +08:00

@murmur #1 我就是想跑大模型

lozzow

2023-11-16 22:07:21 +08:00

@rizon 可以尝试下 ray ，理论上是支持 transformer 模型的，但是怎么做，我也就看了个文档

israinbow

2023-11-17 03:19:13 +08:00

TorchServe 或者黄核弹的 TensorRT? 我们做边缘计算的还有用 ONNX 的, 挑一个吧🫡

max1911

2023-11-17 10:24:32 +08:00

op 可以试试 ggml 库重新，基于 ggml 上的项目 llama.cpp ，可以实现用 C++运行语言模型

max1911

2023-11-17 10:30:50 +08:00

max1911

2023-11-17 10:34:41 +08:00

t133

2023-11-20 13:20:29 +08:00

大矩阵的乘法除非你有 infiniband 并行效率惨不忍睹

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.