最低成本本地运行 70B 模型， V 友有哪些建议

如题，最新体验英伟达的 70Bllama 感觉不错，打算搞个机器本地跑一跑。目前打算 x99 准系统+4*(p40/v100)搞一搞，有没有实践过的老哥评价下可行性，就奔着捡垃圾极致性价比来搞

papersnake

47 天前

4 * v100 跑 int8 量化没问题，速度可能会慢一点；占用大约 70GB 模型参数+20GB 的 kv 缓存

kzfile

47 天前

说实话，就算是捡垃圾，4 路 p40 也不便宜了。我觉得先租个云主机玩玩得了

lithiumii

47 天前

最低成本？ cpu 跑呗，搞 128G 内存，跑量化的版本

xye0542

47 天前

2080ti 魔改 22G 版本也行吧。价格应该比 v100 便宜。现在应该不到 3k 一张卡。也能支持 nvlink

liu731

47 天前

直接二手 4090 ，到时候不玩了卖也亏不了多少钱

Hookery

47 天前

70B 就不可能低成本。。。
之前也想过低成本搞一套，P40 和 P100 都涨飞天了，而且还需要魔改散热，稳定性是堪忧的。多卡也需要电源，电源成本也跟着上来了。
最低成本直接搞两张 P102 ，单张 200 ，两张 400 ，一共 20G 显存，可以玩 32B 的 4bit 量化。整机成本不破千。

70B 显存需求大概在 40G 作用，最便宜就是两张 2080TI 22G ，两张卡都上 5K 了。

lsilencej

47 天前

看看 https://github.com/SJTU-IPADS/PowerInfer ，有量化好的 70B llama 可以跑 https://huggingface.co/PowerInfer/ReluLLaMA-70B-PowerInfer-GGUF ，限制显存可以在单卡上部署，不过好像对 70B 模型优化差点意思

shuimugan

47 天前

P40 很垃圾的，10 张 P40 加一起速度还没到 M2 Ultra 的 1/3

kuhung

47 天前

我在看 mac 的大内存版本，还没确定是 M4Pro 的 mini 64G 还是 M2U 的 studio

mmdsun

47 天前

魔改显卡，双显卡主机

dafen7

47 天前

@kuhung 我看了之前 mac mini 下面的评论，老哥们说带宽不行，还是不如显卡

dafen7

47 天前

@Hookery 就是想着除了显卡之外尽量压缩其他成本，目前看了咸鱼几个超微的 4u 准系统都要 2000-3000

dafen7

47 天前

@shuimugan macbookpro 能跑 70B 吗，我感觉真搞个 mac 大内存也行，不是说带宽不足吗

Hookery

47 天前

大模型不吃 CPU 啊，不一定必须上超微吧，除非你要 4 满速 PCIE 接口，民用主板才没有。

shuimugan

46 天前

@dafen7 mac book pro 能跑 70B 吗？能
带宽不足吗？不足，所以速度慢
慢多少？带宽是 Ultra 的多少，速度就是 Ultra 的多少，看 https://github.com/ggerganov/llama.cpp/discussions/4167 可以发现带宽就是首要的决定因素，而且模型越大，带宽瓶颈需求就越大，特别是 70B 这个体量，传输都不够了，算得再快都没用

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1086500

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.