现在像 7B/13B 这类大模型,推理加速用的什么框架?

2023-10-11 09:10:31 +08:00
 1311317

有专门做这块落地的大佬吗?

1284 次点击
所在节点    机器学习
6 条回复
Attenton
2023-10-11 09:54:27 +08:00
感觉框架倒是其次的吧,主要还是算力和一些推理优化技术吧
datoujiejie221
2023-10-11 10:06:50 +08:00
可以看下 lightllm 这个项目,部署还是比较简单,项目最后也列举了一些现有框架可以参考一下:
Faster Transformer
Text Generation Inference
vLLM
Flash Attention 1&2
OpenAI Triton
uriel2333
2023-10-11 11:49:55 +08:00
在用 vllm 跑 qwen-7b ,当然只是跑起来了,也没有太多研究
liprais
2023-10-11 12:10:25 +08:00
llama.cpp
1311317
2023-10-11 15:01:11 +08:00
@uriel2333 看了一下介绍,感觉挺牛的
1311317
2023-10-11 15:03:10 +08:00
@Attenton 主要是借助推理框架的优化技术,自己实现不了那些技术

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/980840

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX