有什么高性价比的开源大模型体验和生产部署服务?

159 天前
 wencan
之前玩 8b 左右的,在电脑上用 llama.cpp 跑,还流畅。
然后越玩越大,35b 、70b 、120b
要么直接跑不起来,要么几十分钟生成

要求除了能跑各个知名的开源大模型,比如 qwen2 ,还要能跑 cohere 之类稍冷门的
因为后面可能要生产部署,最好得是国内的。
体验和生产部署分开也行。
目前看,微调的可能行不大。不需要支持微调或者自定义。简单地说:有 api 调就行。

不知道 huggingface space pro 、colab(pro)、openrouter 之类能否满足需求?
还是说需要 vps 型的?
1615 次点击
所在节点    问与答
7 条回复
wencan
159 天前
另外有时生产环境可能有信息安全的要求。考虑到信息安全,估计得自己部署了,有什么高性价比的解决方案?
bkdlee
159 天前
模型越来越大,只能通过硬件解决。
我用的是 ollama 加 AnythingLLM
wencan
159 天前
@bkdlee 那么,有什么高性价比的硬件?
paopjian
159 天前
最实惠的是 2080ti 22g,不过没有保修,再好点是 4090,但是游戏卡可能不太适合长期运行. A100 40g 的 3.7 万, 80g 的 14 万不值得了, L40 48g 4.2 万, L40s 48g 5.6 万感觉不错. 其他的 H100 什么的就别想了.
yiios
159 天前
@wencan 显卡 2080ti 22g * 4 ,准系统超微 7048 。一万五以内搞定,可以高上下文跑 72b 量化模型,token 20 个每秒。
Springmvc
159 天前
4 卡 amd mi100 可以一战 32*4 GB 显存 + epyc4000
bkdlee
159 天前
@wencan 目前性价比高的全新配置是 Mac Studio 的 M2 Ultra ,64GB 。再往上就看财力了。统一内存架构适合跑大模型。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1048373

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX