[LLM] 有哪位大佬指点下如何在 cpu 上分布式推理

224 天前
 rizon
我有很多 32 核的 cpu 机器,想要跨这些机器使用所有的 cpu 算力进行推理。
这个该怎么做啊?

是不是部署 k8s 集群就可以,还是有更简单的办法?

还是说用分布式的 spark 等计算框架?但是具体该怎么搞呢。没头绪
1256 次点击
所在节点    程序员
8 条回复
murmur
224 天前
你做科学计算么,有的科学计算是 cpu 运算+大内存,不过也不是用框架,直接买现成的软件,比如电磁学的 feko
rizon
224 天前
@murmur #1 我就是想跑大模型
lozzow
224 天前
@rizon 可以尝试下 ray ,理论上是支持 transformer 模型的,但是怎么做,我也就看了个文档
israinbow
224 天前
TorchServe 或者黄核弹的 TensorRT? 我们做边缘计算的还有用 ONNX 的, 挑一个吧🫡
max1911
224 天前
op 可以试试 ggml 库重新,基于 ggml 上的项目 llama.cpp ,可以实现用 C++运行语言模型
max1911
224 天前
max1911
224 天前
@usazcx 如果是 Intel 集群,也可以试试 bigdl.
https://bigdl.readthedocs.io/en/latest/doc/Serving/index.html
t133
221 天前
大矩阵的乘法除非你有 infiniband 并行效率惨不忍睹

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/992536

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX