本地部署大语言模型哪家强?

34 天前
 babyedi31996

几个月之前在油管和阿 b 都看到很多教怎么本地部署 AI 的教程,

弄了下来玩了玩,有 chatglm3-6b,llama2-13b 的各种量化变种,

最后对接酒馆玩卡片 AI 人,刚开始真的很震撼很刺激,

尤其是配合 tts 语音 和 stable diffusion 实时生成人物表情图.

但是说实话我 3080-10G 能部署的模型现阶段还是智商和显存欠费.

你说用 claude chatgpt 那些吧,又没隐私又被警告.

瑟瑟永远是玩家第一生产力阿.

那么问题来了,最近 Mac Mini 64G 出来了,大概 17000 能拿下,有没有搞头?

能不能用它来运行量化的 llama3-70b 之类的.

或者是本地部署到底什么方案比较好,请教各位大佬

7406 次点击
所在节点    程序员
86 条回复
fulajickhz
34 天前
babyedi31996
34 天前
@fulajickhz 不是,这只是个客户端对接,不是本地部署模型阿
shuimugan
34 天前
没有搞头,带宽太小了。影响大语言模型推理速度首要因素是带宽,目前家用最舒服的还是 M2 Ultra 。你这个预算可以搞 4 个 2080ti 22g 的服务器代替,虽然吵点和费电,但是带宽在那里,跑推理是 m4 的几倍
Royal22
34 天前
Mini 40B ??? 洗洗睡吧
lsearsea
34 天前
有这一万七你搞点显卡不好吗😰
TonyG
34 天前
没有几十万跑不起来的
babyedi31996
34 天前
@lsearsea 4090 也就 24G 显存,够干啥的唉
babyedi31996
34 天前
@shuimugan 4 个 2080ti 22g 整个巨物在家,不太合适啊.而且带宽是显卡的那个东西吗?请教下
lsearsea
34 天前
@babyedi31996 量化 72b 能跑
lsearsea
34 天前
可以先试试 qwen2/2.5 的 32b 看看效果
iorilu
34 天前
mac 跑 70b 模型速度如何

不可能有 gpu 跑的快把
babyedi31996
34 天前
@iorilu 快事不可能有 GPU 快,但是起码能打开,而且肯定比 CPU 跑快呀,70b
rus4db
34 天前
量化 ggml + llama.cpp 、vLLM 。

只是图一乐的话,甚至浏览器也能推理。
可以看看我做的小玩具: https://github.com/bd4sur/Nano
iorilu
34 天前
@babyedi31996 我是想有什么人有需求必须本地跑 70b 的模型呢, 毕竟本地模型再强也不可能有 gpt4 或 claude 的模型强把, 如果是为了训练还说的过去


现在一般大家本地玩玩也就量化过的, 一般 16g 显存都能跑了, 买个 4060ti 16g 版也就 3000 多

但我估计就 mac 这性能训练模型可能也不太可行把, 哪得多久
neteroster
34 天前
70B M3 Max 之前看的数据 tg 大概只有 4-5 TPS ,而 M4 Pro 内存带宽只有 270G ( M3 Max 300 或 400G )。这还只是 tg ,你上下文长的话还要忍受特有的超级缓慢 pp ,建议先对速度有个概念。( tg 指文本生成速度,pp 指提示处理速度)

现在这个时间,70B+ 的模型还是用在线 API 性价比高些,尽管有各种问题但好歹基本都能解决,本地花这么多钱最后还慢的要死。真要本地玩也不建议 Mac
hez2010
34 天前
试试 Phi-3.5-MoE 专家模型?参数 16x3.8B 。Benchmark 甚至跑得比 gpt-4o-mini 还高。
https://huggingface.co/microsoft/Phi-3.5-MoE-instruct
LaTero
34 天前
玩 silly tavern ,建议用 openrouter ,silly tavern 支持他家的 api ,而且是按量付费,用多少付多少,还能匿名用 claude/gpt 不怕封号,多好,搞什么本地。模型建议 hermes 3 405b (基本是 llama 3 405b 的去审查版)或 command r+(无审查的商用模型,个人感觉效果其实不是很好,但是非英语会比 hermes 好一些。社区微调一般只会英语)。效果真的把那些本地 13b 小模型吊着打,还快。本地搞一堆非常低的量化也就勉勉强强跑个 70b ,速度还不行,而且你本地买两张 24g 的卡能在 openrouter 玩多久……
LaTero
34 天前
刚才去看了下 hermes 的模型卡,fp16 要超过 800GB 的显存,而 fp8“仅需”430GB ,这样的模型,在 openrouter100 万个输入 token 才 1.79 美元……
本地的话最多也就 int4 量化 70B 了,但是效果真的不是很好。最近的 70B 跑分王 qwen2.5 和英伟达的 Nemotron 我都试过,真的就只是跑分王。尤其是 Nemotron ,它高分主要是输出长,不切实际的跑分就喜欢输出长的,然而对人类来说就是啰嗦、废话多。Qwen 经常英语中文乱混,我用英语的时候它喜欢夹几个汉字,我用中文它又整几个英文单词出来了,很无语。这俩还是有审查的,需要找越狱 prompt ,越狱也不是一定管用的。
另外还有两个我个人用的多一点的模型是 WizardLM 和 DolphinLM ,都是基于 Mistral 的 MoE 模型,优点是很便宜。Wizard 有一点点审查,一个简单的系统 prompt 就搞定了,Dolphin 无审查。
adwords
34 天前
还是直接买 xAi
loading
34 天前
这么感觉你用途大部分算力用在了生成视频上。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1085037

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX