最低成本本地运行 70B 模型, V 友有哪些建议

9 天前
 dafen7

如题,最新体验英伟达的 70Bllama 感觉不错,打算搞个机器本地跑一跑。目前打算 x99 准系统+4*(p40/v100)搞一搞,有没有实践过的老哥评价下可行性,就奔着捡垃圾极致性价比来搞

1614 次点击
所在节点    程序员
15 条回复
papersnake
9 天前
4 * v100 跑 int8 量化没问题,速度可能会慢一点;占用大约 70GB 模型参数+20GB 的 kv 缓存
kzfile
9 天前
说实话,就算是捡垃圾,4 路 p40 也不便宜了。我觉得先租个云主机玩玩得了
lithiumii
9 天前
最低成本? cpu 跑呗,搞 128G 内存,跑量化的版本
xye0542
9 天前
2080ti 魔改 22G 版本也行吧。价格应该比 v100 便宜。现在应该不到 3k 一张卡。也能支持 nvlink
liu731
9 天前
直接二手 4090 ,到时候不玩了卖也亏不了多少钱
Hookery
9 天前
70B 就不可能低成本。。。
之前也想过低成本搞一套,P40 和 P100 都涨飞天了,而且还需要魔改散热,稳定性是堪忧的。多卡也需要电源,电源成本也跟着上来了。
最低成本直接搞两张 P102 ,单张 200 ,两张 400 ,一共 20G 显存,可以玩 32B 的 4bit 量化。整机成本不破千。

70B 显存需求大概在 40G 作用,最便宜就是两张 2080TI 22G ,两张卡都上 5K 了。
lsilencej
9 天前
看看 https://github.com/SJTU-IPADS/PowerInfer ,有量化好的 70B llama 可以跑 https://huggingface.co/PowerInfer/ReluLLaMA-70B-PowerInfer-GGUF ,限制显存可以在单卡上部署,不过好像对 70B 模型优化差点意思
shuimugan
9 天前
P40 很垃圾的,10 张 P40 加一起速度还没到 M2 Ultra 的 1/3
kuhung
9 天前
我在看 mac 的大内存版本,还没确定是 M4Pro 的 mini 64G 还是 M2U 的 studio
mmdsun
9 天前
魔改显卡,双显卡主机
dafen7
9 天前
@kuhung 我看了之前 mac mini 下面的评论,老哥们说带宽不行,还是不如显卡
dafen7
9 天前
@Hookery 就是想着除了显卡之外尽量压缩其他成本,目前看了咸鱼几个超微的 4u 准系统都要 2000-3000
dafen7
9 天前
@shuimugan macbookpro 能跑 70B 吗,我感觉真搞个 mac 大内存也行,不是说带宽不足吗
Hookery
9 天前
大模型不吃 CPU 啊,不一定必须上超微吧,除非你要 4 满速 PCIE 接口,民用主板才没有。
shuimugan
8 天前
@dafen7 mac book pro 能跑 70B 吗?能
带宽不足吗?不足,所以速度慢
慢多少?带宽是 Ultra 的多少,速度就是 Ultra 的多少,看 https://github.com/ggerganov/llama.cpp/discussions/4167 可以发现带宽就是首要的决定因素,而且模型越大,带宽瓶颈需求就越大,特别是 70B 这个体量,传输都不够了,算得再快都没用

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1086500

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX