本地部署大语言模型哪家强?

1 天前
 babyedi31996

几个月之前在油管和阿 b 都看到很多教怎么本地部署 AI 的教程,

弄了下来玩了玩,有 chatglm3-6b,llama2-13b 的各种量化变种,

最后对接酒馆玩卡片 AI 人,刚开始真的很震撼很刺激,

尤其是配合 tts 语音 和 stable diffusion 实时生成人物表情图.

但是说实话我 3080-10G 能部署的模型现阶段还是智商和显存欠费.

你说用 claude chatgpt 那些吧,又没隐私又被警告.

瑟瑟永远是玩家第一生产力阿.

那么问题来了,最近 Mac Mini 64G 出来了,大概 17000 能拿下,有没有搞头?

能不能用它来运行量化的 llama3-70b 之类的.

或者是本地部署到底什么方案比较好,请教各位大佬

4525 次点击
所在节点    程序员
79 条回复
babyedi31996
1 天前
@rus4db 这位大佬,我之前就是用 gguf 的 13b 量化 5,只能说爆显存之后速度乌龟好惨...
babyedi31996
1 天前
@adwords 买的有审查,不能好好的瑟瑟
babyedi31996
1 天前
@loading 没有没有,只是 AI 角色扮演聊天,最多就是 tts 出语音和 sd 生个表情图而已
babyedi31996
1 天前
@iorilu AI 角色扮演阿,酒馆之类的,用好一点的本地模型,聊起来更真实阿
babyedi31996
1 天前
@neteroster 感谢佬的回复,如果 70B M3 Max 都只有 4-5t/s,那就完全没必要了,谢谢.
我本地不是为了性价比,主要是隐私和瑟瑟 AI 角色扮演那些玩法
babyedi31996
1 天前
@hez2010 感谢这位大佬,这个模型需要多大显存可以使用阿?不太理解 16x3.8B 的意思.
比 4o-mini 还高那真的完全够用阿
babyedi31996
1 天前
@LaTero 感谢回复,但是在线隐私还是有一点担忧阿.openai 和 claude 是不封号了,但是这个 openrouter 会不会审查或者封我的号...
babyedi31996
1 天前
@LaTero 感谢大佬,长见识了.试试 openrouter 一会
shuimugan
23 小时 24 分钟前
@babyedi31996 带宽指的是推理介质的带宽,如果你用显卡进行推理,带宽指的就是显卡的带宽;用 Mac 推理,带宽指的就是它那个统一内存架构的带宽;如果你用显卡 + CPU 跑,那么带宽指的就是就是显卡带宽 + 内存带宽(这个是最垃圾的组合,我愿称之为拖后腿)。目前来说苹果最屌的带宽还得是 ultra 系列的,能有 800GB/s ,用苹果跑推理的速度(每一秒可以输出的 token 数量)可以无脑看作和带宽大小是正比关系,M4 Pro 的内存带宽是 273GB/s ,推理速度可以无脑看作只有 ultra 的 1/3 。

本地跑大模型不一定要追求模型的参数量,我高强度用 192GB 的 M2 Ultra 跑推理也有快 1 年了,全网也没几个人这么干的,光是每个月下载新出的模型都要下载几百 G ,以前也追求过大参数的模型,但是无论多强的模型,甚至是 GPT4 ,照样会胡言乱语无中生有给出错误的答案,不要指望一个模型能解决所有问题,所以我现在已经更换方案了,还得是 RAG 靠谱。

RAG 说白了就是在对话后面拼接类似这样的一段话“下面是额外补充的上下文信息-----start{插入一些联网搜索或者数据库里近似搜索和排序后的前几名文章内容再或者是你手工硬塞的文本}----end”。和代码仓库对话也是这样的形式,没啥特别的。因为大语言模型就是根据 prompt 不断计算下一个 token 出现的概率,在对话里强插入上下文就极大提高了相关 token 的权重,也就不怎么会胡言乱语无中生有了。

基于这个思路和你的目的,去找那一些上下文支持足够大的( 128k 以上)、审查少、特定领域擅长的小模型或者是 MoE 架构的模型(跑起来吃显存较大但是计算 token 时需要的带宽很小)就合适了,量化选个 4bit 就行了(反正有 RAG 强干预,损失可以忽略不计)。再或者等 Mamba 架构的模型再出来多一点,这个架构的模型开再多的上下文也不会让内存暴涨而且推理速度也不会变慢。

到了这里就会发现 64G 真的太小了,我之前测试用 Phi-3 Medium ( 14B 的模型)开 128K 上下文直接塞整个项目进去换语言重构(类比直接塞一本瑟瑟小说进去续写仿写),光显存就要吃 100 多 G 了。哦,目前我测试下来搞瑟瑟最强的还得是 c4ai-command-r-plus 这个 104B 的模型( 8bit 量化下速度大概是 5token/s ),显存占用也要 100G 左右。

所以 Mac 跑大语言模型推理,只有 Ultra 系列的大带宽 + 大内存这样的顶配合适,而且跑相同参数量的模型,速度基本上是多张 2080ti 22g 组成相同显存的服务器跑推理速度的 1/3 ~ 1/2 ,当然优点也非常明显,很省电很不占空间,甚至还能通过雷电口串联 4 个 Mac Studio 来跑分布式推理,可以跑更大的模型。

如果这都拦不住你要买 64G 的 M4 ,那你就用 lmstudio 吧,它最近的更新集成了 mlx 框架,也就是 M 系列 Mac 跑推理的优化方案,mlx 迭代了一年现在也稳定了,每个版本也会稍微提升一下性能让推理速度加快。
babyedi31996
23 小时 2 分钟前
@shuimugan "如果你用显卡 + CPU 跑,那么带宽指的就是就是显卡带宽 + 内存带宽(这个是最垃圾的组合,我愿称之为拖后腿)"
这句说得太对了,本来量化 13b 还有 4~5t/s 的.gguf 在爆显存之后,直接蜗牛...什么玩的心情都没了.

太专业了,感谢,受益匪浅.
babyedi31996
23 小时 0 分钟前
@shuimugan "所以 Mac 跑大语言模型推理,只有 Ultra 系列的大带宽 + 大内存这样的顶配合适,而且跑相同参数量的模型,速度基本上是多张 2080ti 22g 组成相同显存的服务器跑推理速度的 1/3 ~ 1/2 ,当然优点也非常明显,很省电很不占空间,甚至还能通过雷电口串联 4 个 Mac Studio 来跑分布式推理,可以跑更大的模型。"

就凭大佬您的经验,以上这个优点就秒杀自己组建 PC 了.
2080ti 22G 都是魔改卡,稳定性和质量都太不稳定了,后期维护/耗电/噪音/空间占用的等等耗费的精力远超省下来的价值.
这套机器不玩了之后只能卖废铁,但是 Ultra 系列随便卖都有人要
jeeyong
22 小时 49 分钟前
@iorilu 朋友帮着跑的, qwen2.572B, 8+ token/s
shuimugan
22 小时 47 分钟前
@babyedi31996 是的,我也是反复对比计算衡量过后,才直接上了顶配的 Mac Studio ,有 apple care 加持可以大胆拿来高强度推理,开箱即用很省心,电费也省下不少,还很安静
babyedi31996
22 小时 38 分钟前
@shuimugan 教育优惠顶配芯片的 192G M2 Mac Studio 大概 47000.要不要等等 M4 的新款?
halida
22 小时 24 分钟前
@babyedi31996 好像很快就要出了?那么有钱为了玩这个花几万块?
babyedi31996
22 小时 18 分钟前
@halida 尝鲜嘛,就像 30 年前能花 5000 买个人 PC 的那些人一样~
halida
22 小时 11 分钟前
@babyedi31996 先租一个网上服务器用用几天看看效果吧。
shuimugan
22 小时 8 分钟前
@babyedi31996 我当时是买官方翻新的,不到 4.5w 。现在肯定不买,按刚出的 M4 Max 内存带宽推断 M4 Ultra 内存带宽应该能超过 1000GB/s 了,跑推理的速度比 M2 Ultra 要快 1/4 ,不急的话还可以等官方翻新 + 员工优惠叠加更便宜。教育优惠貌似不能在 studio 上使用
qiniu2025
21 小时 58 分钟前
目前最简单的方案是访问 flashai.com.cn,下载一个模型包,一键就能在 win 和 mac 上运行本地大模型,图形界面,自带知识库和文档翻译

16G 内存可以跑 gemma2 9B,qwen2.5 7B
LaTero
21 小时 9 分钟前
@shuimugan Command R+居然是 open weights !用了这么久我都不知道,他们官网也没写

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1085037

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX