本地部署大语言模型哪家强?

几个月之前在油管和阿 b 都看到很多教怎么本地部署 AI 的教程,

弄了下来玩了玩,有 chatglm3-6b,llama2-13b 的各种量化变种,

最后对接酒馆玩卡片 AI 人,刚开始真的很震撼很刺激,

尤其是配合 tts 语音和 stable diffusion 实时生成人物表情图.

但是说实话我 3080-10G 能部署的模型现阶段还是智商和显存欠费.

你说用 claude chatgpt 那些吧,又没隐私又被警告.

瑟瑟永远是玩家第一生产力阿.

那么问题来了,最近 Mac Mini 64G 出来了,大概 17000 能拿下,有没有搞头?

能不能用它来运行量化的 llama3-70b 之类的.

或者是本地部署到底什么方案比较好,请教各位大佬

LaTero

22 小时 45 分钟前

@shuimugan 不过个人感觉 hermes 3 405b 还是强不少的，“事实”这种东西确实不管多强的模型都爱扯淡，但大的模型还体现在“智商”高，比如你编了一些物品/概念/机制然后要 AI 也来编几个，区别就打了。瑟瑟应用在这也没法发，就只能游戏举个例子，hermes 能像模像样地编出有配合和复杂机制的 rogue like 游戏物品，而 command r+就只能编出“攻击力+5”这种没什么意思的。

回楼主：隐私方面的话，你可以去看他们的 tos 和隐私政策，都是很友好的，没有额外审查（“额外”指除去模型自带的或提供商要求的。比如 claude 会要求他们审查，但不会比 claude 本身的审查更多，而且 claude 还有 self-moderated 版本，就是由 claude 的模型自己来做，比直接用 claude 网页版都更少审查），默认也不会记录你写了什么。你可以主动开启匿名记录并获取 1%的折扣，但是这是完全可选的。你甚至可以用一次性邮箱注册+加密货币支付。至于封号，从他们 discord 记录和网站上的统计，拿这家做瑟瑟的是很多的。而且我就这么和你说吧，如果我写的东西都不会被封，你也不需要担心……而速度快（ command r+ 60 token/s ）选项多是实打实的。

yshtcn

22 小时 39 分钟前

目前本地大模型我觉得最大的作用就是做一些简单的判断或者翻译。
我目前用 3060 跑 7b 的 qwen2.5 效果最好。

所以我也很想知道统一架构能不能在可用的范围内跑更大的模型

NGGTI

22 小时 4 分钟前

没必要了，现在国内的大模型都白菜价啦，几百万 toekn 才几块

shuimugan

21 小时 10 分钟前

@LaTero 是的，更多的优质数据训练出来的模型就是底大一级压死人，roll 到好的回答的几率高很多。但是大的模型对硬件的要求也很高，本地难部署，期待未来会有个更好的架构，基础模型是个智商和学习能力都很强的白纸，然后选择外挂要用到的知识库进行对话，那样就爽了。

WuDiHaiTai

20 小时 14 分钟前

为何不先用一百块租两天 4090 云电脑体验一下先呢，我当年就是这么玩的，为了学校比赛搞了两天，最后觉得还是没啥意思。花大钱之前先租用体验一下再决定我觉得是最合理的。

fulajickhz

18 小时 23 分钟前

@babyedi31996 这个不是吗？模型不是在本地

在 RWKV runner 的“模型”版块，可以筛选并下载 RWKV 模型。

https://rwkv.cn/RWKV-Runner/Simple-Usage#rwkv-runner-%E4%B8%8B%E8%BD%BD%E9%BB%98%E8%AE%A4

还有这个 Ai00

https://rwkv.cn/ai00/Simple-Usage#%E4%B8%8B%E8%BD%BD%E8%BD%AC%E6%8D%A2-rwkv-%E6%A8%A1%E5%9E%8B

https://rwkv.cn/docs

微软的 office 装了这个 rwkv ，具体使用功能未知

https://blog.rwkv.com/p/rwkvcpp-shipping-to-half-a-billion

fulajickhz

18 小时 9 分钟前

@babyedi31996 B 站上有人跑了 RWKV6-14b AMD 的核心显卡，输出 5-9 tokens/s ，4060 独显。int 8 也是 6 tokens/s ，NF4 18 tokens/s

看起来挺快 https://www.bilibili.com/video/BV1Qd48ecEAA

Rehtt

15 小时 47 分钟前

租个云 gpu 服务器

cowcomic

15 小时 26 分钟前

要看你干啥
要是普通玩玩，都行
想真正作为生产力，10B 以下不推荐，连 json 都无法稳定生成
30B 左右的目前没有特别好的，可以等零一万物后续发布的，之前他们发布的 34B 模型算是比较强的了，而且他们家最近发布的 yi-ligntning 这个模型巨牛，这让我对他们后续开源的比较期待
70B 左右的就推荐 qwen2.5-72B ，目前在这个量级下没啥对手
在往上就推荐 deepseek2.5 的 236B 的模型，感觉效果比 llama405B 的模型效果还要好

babyedi31996

15 小时 1 分钟前

@fulajickhz 长见识了,感谢这位佬友.我去看看学习下.

babyedi31996

15 小时 0 分钟前

@yshtcn 是可以的,我看林亦在 b 站的视频,他是用 120G 统一内存的 Mac Studio 跑 120b 量化模型.好像也有 4-5t/s 没记错的话.

babyedi31996

14 小时 58 分钟前

@shuimugan 官翻+员工优惠在哪里可以买到?

babyedi31996

14 小时 55 分钟前

@LaTero 感谢你的经验分享,"如果我写的东西都不会被封，你也不需要担心……而速度快（ command r+ 60 token/s ）选项多是实打实的。"我懂这句的含金量了.哈哈

babyedi31996

14 小时 23 分钟前

@NGGTI api 是不贵,但是审查和隐私问题阿

babyedi31996

14 小时 22 分钟前

@WuDiHaiTai 4090 也才 24G 阿,最多就是玩下 20b 了

guiyun

13 小时 35 分钟前

ollama + openwebui + qwen2.5

阿里的通义千问 2.5 的开源版 https://qwen.readthedocs.io/zh-cn/latest/index.html
我自己用的是 7b 的模型，显卡用的特斯拉 P4 (8G 显存)
用起来感觉还行

Hookery

13 小时 19 分钟前

qwen2.5 72B, 4bt quant 估计 40G 显存吧.MAC 跑太慢了，直接双卡 2080TI 魔改 22G 的，一共 44G 够你随便折腾了，整机下来估计不到 6K ，电源买好点就行。

babyedi31996

13 小时 12 分钟前

@guiyun 7b 效果如何?

babyedi31996

13 小时 11 分钟前

@Hookery 好多佬友都推荐 qwen,这个模型效果好?

guiyun

12 小时 58 分钟前

@babyedi31996 我感觉还行。和 3 差不多。已经比较接近 3.5 了

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1085037

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.