Mac Studio 实战 671B 全量大模型成绩出来了

4 天前
moudy  moudy
油管已经有人 show 出 Mac Studio M3 Ultra 实战 671B 大模型的成绩

DeepSeek R1 671B 4bit 量化

硬盘占用 404G
内存占用 448G
输出速度 17-18 token/s
功耗 200W !!!

<amp-youtube data-videoid="J4qwuCXyAcU" layout="responsive" width="480" height="270"></amp-youtube>&feature=youtu.be
3824 次点击
所在节点   Apple  Apple
35 条回复
swmjjy
swmjjy
3 天前
@wclebb 我哪里提到云 api 了, 我说的是权重, 没人说 mac 不能跑, 在说的是 mac 跑性价比极低, 低价不如 ktransformers 方案低, 高吞吐性价比比正规方案差 10 倍以上
swmjjy
swmjjy
3 天前
@wclebb 然后能做到的预算我头上就说了, 4bit 671b 跑到 10token/s 以上只需要 3w 预算而已
wclebb
wclebb
3 天前
@swmjjy #20 行吧,我承认对刚发的 GitHub 了解不多。

我刚拿你这个 GitHub 内容发给让 ChatGPT 询问了解;
它一开始表示不可能,所以我直接采纳了需要 3360G 这个答案;

后来表示你只要 3W 预算就能跑,我回去问 ChatGPT 表示你是不是算错了,它纠结了半天算了半天直到现在才告诉我它承认算错了,确实 PC 24G 显存和 300G 多内存,是理论上可以跑。

为我刚刚没理解你发 GitHub 答案抱歉。
@swmjjy #21
feikaras
feikaras
3 天前
问题是 4bit 量化啊。这又不值得说道。你都付了十万块了,还不能跑那才是笑话。
zeyangstudies
zeyangstudies
3 天前
@LanhuaMa 但是人家是私有化部署的,这个是关键呀~
june4
june4
3 天前
@wclebb PC 只要不到 4w, 且是 8bit, 8bit 比 4bit 强出太多根本不是一个级别
https://mp.weixin.qq.com/s/vIrvbVJ6Nv00Ehre1zZwMw
moudy
moudy
3 天前
@LanhuaMa #5 商业上很多客户资料都是有 NDA 限制的,根本不是钱的问题
mXw
mXw
3 天前
这个价格 我不如直接去买 api
WuSiYu
WuSiYu
3 天前
个人玩真不适合玩这么大的 moe 模型。。。有多少钱都浪费在存这些参数上了,而人家云端至少几百张卡一组跑混合专家并行,平均下来能把成本优化到跟只跑跟激活的参数一样大小的模型( 21B )差不多
MacsedProtoss
MacsedProtoss
3 天前
@june4 然而这个方案的 token 速度很差啊…
showonder
showonder
2 天前
等年底或明年 500b 的开源大模型是不是性能能逼近 GPT4.5 了?
ssbg2
ssbg2
2 天前
@MacsedProtoss 有成本限制啊,之前是没什么好办法,现在这个(包括 MAC STUDIO 方案)是可用。
niubilewodev
niubilewodev
2 天前
17-18 token/s 在带思考链的模型上,算勉强能用。
就是不知道上下文多了之后,prefill 时间怎么样。
beginor
beginor
2 天前
Mac 跑文本和多模态大模型推理还行,但是如果要跑 comfy ui+多媒体生成的话,还是得 N 卡。
gigishy
gigishy
2 天前
@wsping 从能跑 671b 模型的机器来看,这个便宜太多太多太多太多太多太多……更别说使用成本的便宜。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1119191

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX