本地部署大语言模型哪家强?

1 天前

babyedi31996

几个月之前在油管和阿 b 都看到很多教怎么本地部署 AI 的教程,

弄了下来玩了玩,有 chatglm3-6b,llama2-13b 的各种量化变种,

最后对接酒馆玩卡片 AI 人,刚开始真的很震撼很刺激,

尤其是配合 tts 语音和 stable diffusion 实时生成人物表情图.

但是说实话我 3080-10G 能部署的模型现阶段还是智商和显存欠费.

你说用 claude chatgpt 那些吧,又没隐私又被警告.

瑟瑟永远是玩家第一生产力阿.

那么问题来了,最近 Mac Mini 64G 出来了,大概 17000 能拿下,有没有搞头?

能不能用它来运行量化的 llama3-70b 之类的.

或者是本地部署到底什么方案比较好,请教各位大佬

4599 次点击

所在节点

程序员

81 条回复

fulajickhz

1 天前

这个 rwkv 有没有试过?

https://github.com/josStorer/RWKV-Runner/blob/master/README_ZH.md

babyedi31996

1 天前

@fulajickhz 不是,这只是个客户端对接,不是本地部署模型阿

shuimugan

1 天前

没有搞头，带宽太小了。影响大语言模型推理速度首要因素是带宽，目前家用最舒服的还是 M2 Ultra 。你这个预算可以搞 4 个 2080ti 22g 的服务器代替，虽然吵点和费电，但是带宽在那里，跑推理是 m4 的几倍

Royal22

1 天前

Mini 40B ??? 洗洗睡吧

lsearsea

1 天前

有这一万七你搞点显卡不好吗😰

TonyG

1 天前

没有几十万跑不起来的

babyedi31996

1 天前

@lsearsea 4090 也就 24G 显存,够干啥的唉

babyedi31996

1 天前

@shuimugan 4 个 2080ti 22g 整个巨物在家,不太合适啊.而且带宽是显卡的那个东西吗?请教下

lsearsea

1 天前

@babyedi31996 量化 72b 能跑

lsearsea

1 天前

可以先试试 qwen2/2.5 的 32b 看看效果

iorilu

1 天前

mac 跑 70b 模型速度如何

不可能有 gpu 跑的快把

babyedi31996

1 天前

@iorilu 快事不可能有 GPU 快,但是起码能打开,而且肯定比 CPU 跑快呀,70b

rus4db

1 天前

量化 ggml + llama.cpp 、vLLM 。

只是图一乐的话，甚至浏览器也能推理。
可以看看我做的小玩具： https://github.com/bd4sur/Nano

iorilu

1 天前

@babyedi31996 我是想有什么人有需求必须本地跑 70b 的模型呢, 毕竟本地模型再强也不可能有 gpt4 或 claude 的模型强把, 如果是为了训练还说的过去

现在一般大家本地玩玩也就量化过的, 一般 16g 显存都能跑了, 买个 4060ti 16g 版也就 3000 多

但我估计就 mac 这性能训练模型可能也不太可行把, 哪得多久

neteroster

1 天前

70B M3 Max 之前看的数据 tg 大概只有 4-5 TPS ，而 M4 Pro 内存带宽只有 270G （ M3 Max 300 或 400G ）。这还只是 tg ，你上下文长的话还要忍受特有的超级缓慢 pp ，建议先对速度有个概念。（ tg 指文本生成速度，pp 指提示处理速度）

现在这个时间，70B+ 的模型还是用在线 API 性价比高些，尽管有各种问题但好歹基本都能解决，本地花这么多钱最后还慢的要死。真要本地玩也不建议 Mac

hez2010

1 天前

试试 Phi-3.5-MoE 专家模型？参数 16x3.8B 。Benchmark 甚至跑得比 gpt-4o-mini 还高。
https://huggingface.co/microsoft/Phi-3.5-MoE-instruct

LaTero

1 天前

玩 silly tavern ，建议用 openrouter ，silly tavern 支持他家的 api ，而且是按量付费，用多少付多少，还能匿名用 claude/gpt 不怕封号，多好，搞什么本地。模型建议 hermes 3 405b （基本是 llama 3 405b 的去审查版）或 command r+（无审查的商用模型，个人感觉效果其实不是很好，但是非英语会比 hermes 好一些。社区微调一般只会英语）。效果真的把那些本地 13b 小模型吊着打，还快。本地搞一堆非常低的量化也就勉勉强强跑个 70b ，速度还不行，而且你本地买两张 24g 的卡能在 openrouter 玩多久……

LaTero

1 天前

刚才去看了下 hermes 的模型卡，fp16 要超过 800GB 的显存，而 fp8“仅需”430GB ，这样的模型，在 openrouter100 万个输入 token 才 1.79 美元……
本地的话最多也就 int4 量化 70B 了，但是效果真的不是很好。最近的 70B 跑分王 qwen2.5 和英伟达的 Nemotron 我都试过，真的就只是跑分王。尤其是 Nemotron ，它高分主要是输出长，不切实际的跑分就喜欢输出长的，然而对人类来说就是啰嗦、废话多。Qwen 经常英语中文乱混，我用英语的时候它喜欢夹几个汉字，我用中文它又整几个英文单词出来了，很无语。这俩还是有审查的，需要找越狱 prompt ，越狱也不是一定管用的。
另外还有两个我个人用的多一点的模型是 WizardLM 和 DolphinLM ，都是基于 Mistral 的 MoE 模型，优点是很便宜。Wizard 有一点点审查，一个简单的系统 prompt 就搞定了，Dolphin 无审查。

adwords

1 天前

还是直接买 xAi

1 天前

这么感觉你用途大部分算力用在了生成视频上。

第 1 页／共 5 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1085037

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.