[LLM] 有哪位大佬指点下如何在 cpu 上分布式推理

2023-11-16 18:16:33 +08:00
 rizon
我有很多 32 核的 cpu 机器,想要跨这些机器使用所有的 cpu 算力进行推理。
这个该怎么做啊?

是不是部署 k8s 集群就可以,还是有更简单的办法?

还是说用分布式的 spark 等计算框架?但是具体该怎么搞呢。没头绪
1540 次点击
所在节点    程序员
8 条回复
murmur
2023-11-16 18:28:09 +08:00
你做科学计算么,有的科学计算是 cpu 运算+大内存,不过也不是用框架,直接买现成的软件,比如电磁学的 feko
rizon
2023-11-16 19:35:36 +08:00
@murmur #1 我就是想跑大模型
lozzow
2023-11-16 22:07:21 +08:00
@rizon 可以尝试下 ray ,理论上是支持 transformer 模型的,但是怎么做,我也就看了个文档
israinbow
2023-11-17 03:19:13 +08:00
TorchServe 或者黄核弹的 TensorRT? 我们做边缘计算的还有用 ONNX 的, 挑一个吧🫡
max1911
2023-11-17 10:24:32 +08:00
op 可以试试 ggml 库重新,基于 ggml 上的项目 llama.cpp ,可以实现用 C++运行语言模型
max1911
2023-11-17 10:30:50 +08:00
max1911
2023-11-17 10:34:41 +08:00
@usazcx 如果是 Intel 集群,也可以试试 bigdl.
https://bigdl.readthedocs.io/en/latest/doc/Serving/index.html
t133
2023-11-20 13:20:29 +08:00
大矩阵的乘法除非你有 infiniband 并行效率惨不忍睹

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/992536

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX