Mac Studio 实战 671B 全量大模型成绩出来了

4 天前

moudy

油管已经有人 show 出 Mac Studio M3 Ultra 实战 671B 大模型的成绩

DeepSeek R1 671B 4bit 量化

硬盘占用 404G
内存占用 448G
输出速度 17-18 token/s
功耗 200W ！！！

<amp-youtube data-videoid="J4qwuCXyAcU" layout="responsive" width="480" height="270"></amp-youtube>&feature=youtu.be

3824 次点击

所在节点

Apple

35 条回复

swmjjy

3 天前

@wclebb 我哪里提到云 api 了, 我说的是权重, 没人说 mac 不能跑, 在说的是 mac 跑性价比极低, 低价不如 ktransformers 方案低, 高吞吐性价比比正规方案差 10 倍以上

swmjjy

3 天前

@wclebb 然后能做到的预算我头上就说了, 4bit 671b 跑到 10token/s 以上只需要 3w 预算而已

wclebb

3 天前

@swmjjy #20 行吧，我承认对刚发的 GitHub 了解不多。

我刚拿你这个 GitHub 内容发给让 ChatGPT 询问了解；
它一开始表示不可能，所以我直接采纳了需要 3360G 这个答案；

后来表示你只要 3W 预算就能跑，我回去问 ChatGPT 表示你是不是算错了，它纠结了半天算了半天直到现在才告诉我它承认算错了，确实 PC 24G 显存和 300G 多内存，是理论上可以跑。

为我刚刚没理解你发 GitHub 答案抱歉。
@swmjjy #21

feikaras

3 天前

问题是 4bit 量化啊。这又不值得说道。你都付了十万块了，还不能跑那才是笑话。

zeyangstudies

3 天前

@LanhuaMa 但是人家是私有化部署的，这个是关键呀~

june4

3 天前

@wclebb PC 只要不到 4w, 且是 8bit, 8bit 比 4bit 强出太多根本不是一个级别
https://mp.weixin.qq.com/s/vIrvbVJ6Nv00Ehre1zZwMw

moudy

3 天前

@LanhuaMa #5 商业上很多客户资料都是有 NDA 限制的，根本不是钱的问题

mXw

3 天前

这个价格我不如直接去买 api

WuSiYu

3 天前

个人玩真不适合玩这么大的 moe 模型。。。有多少钱都浪费在存这些参数上了，而人家云端至少几百张卡一组跑混合专家并行，平均下来能把成本优化到跟只跑跟激活的参数一样大小的模型（ 21B ）差不多

MacsedProtoss

3 天前

@june4 然而这个方案的 token 速度很差啊…

showonder

2 天前

等年底或明年 500b 的开源大模型是不是性能能逼近 GPT4.5 了？

ssbg2

2 天前

@MacsedProtoss 有成本限制啊，之前是没什么好办法，现在这个（包括 MAC STUDIO 方案）是可用。

niubilewodev

2 天前

17-18 token/s 在带思考链的模型上，算勉强能用。
就是不知道上下文多了之后，prefill 时间怎么样。

beginor

2 天前

Mac 跑文本和多模态大模型推理还行，但是如果要跑 comfy ui+多媒体生成的话，还是得 N 卡。

gigishy

2 天前

@wsping 从能跑 671b 模型的机器来看，这个便宜太多太多太多太多太多太多……更别说使用成本的便宜。

第 2 页／共 2 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1119191

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX