V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
moudy
V2EX  ›  Apple

Mac Studio 实战 671B 全量大模型成绩出来了

  •  
  •   moudy · 20 小时 4 分钟前 · 3010 次点击
    油管已经有人 show 出 Mac Studio M3 Ultra 实战 671B 大模型的成绩

    DeepSeek R1 671B 4bit 量化

    硬盘占用 404G
    内存占用 448G
    输出速度 17-18 token/s
    功耗 200W !!!

    &feature=youtu.be
    30 条回复    2025-03-19 00:59:36 +08:00
    scys
        1
    scys  
       19 小时 16 分钟前
    只要 170w 就能跑 671b 也是牛
    wsping
        2
    wsping  
       19 小时 11 分钟前 via iPhone
    太贵了,玩不起
    felixcode
        3
    felixcode  
       18 小时 50 分钟前 via Android
    以前:谁没有个 gpu 服务器,谁还本地跑模型
    现在:苹果牛 B !
    aptupdate
        4
    aptupdate  
       18 小时 33 分钟前 via iPhone
    性价比最高的一集。
    LanhuaMa
        5
    LanhuaMa  
       18 小时 28 分钟前   ❤️ 12
    你拿买这个 macstudio 的价格去充 deepseek api ,按照目前平均 60 token/s 的速度可以持续不间断跑 19 年,整。

    20649usd / (0.035 + 0.550) * 1M / 60 / (3600*24*365)
    lucifer9
        6
    lucifer9  
       18 小时 24 分钟前
    @LanhuaMa 这几天用 deepseek v3 跑翻译,说实话 60 tokens 每秒是肯定没有的,大部分时候比翻墙的 gpt-4o-mini 慢
    tpcy
        7
    tpcy  
       17 小时 54 分钟前
    @LanhuaMa 有些场景是不能用 api 的
    laikick
        8
    laikick  
       17 小时 53 分钟前
    4bit 量化.. 几乎没啥用啊
    mmmeeexxa
        9
    mmmeeexxa  
       17 小时 0 分钟前
    目前翻译好像是 4o-mini 性价比最高了? 有没有本地部署过的,本地翻译模型有哪些?
    cheng6563
        10
    cheng6563  
       16 小时 59 分钟前
    4bit 全量
    wclebb
        11
    wclebb  
       16 小时 58 分钟前
    我观察一些网友对 Mac 的想法有点奇怪。

    我就问一下,按能买到的 Mac Studio 512G 预算下,能做到跑大模型的有哪些 PC 或 专门设备? 2080Ti 魔改显卡交火配置 8 卡电脑?还是上百万的 H100 Nvidia 专业显卡服务器?

    4Bit 精度量化部署本地的情况下只能唯一可选。
    为什么?因为没有 8Bit 或 16Bit 公开。
    ( 8Bit 应该能跑,但也太极限了)
    我估计 70B 按 8Bit 也能跑?

    DeepSeek 为何成功?是因为它降低了成本。
    更有可能搭载在部署本地上跑。也使其在 Mac 上搭建更为可能。
    FarmerChillax
        12
    FarmerChillax  
       16 小时 52 分钟前
    @LanhuaMa 但这样你就只能跑 Deepseek 了,买电脑肯定不是为了单一需求
    tanrenye
        13
    tanrenye  
       16 小时 49 分钟前
    @wclebb 直接购买云设备部署就行了,不然你以为商业应用都跟普通人一样用 ollama 么
    neteroster
        14
    neteroster  
       16 小时 43 分钟前 via Android
    @wclebb

    https://github.com/kvcache-ai/ktransformers/blob/main/doc/en/DeepseekR1_V3_tutorial.md

    0.3-preview, 6454S×2, 4090D, D5-4800

    pp~250, tg~12 ,我没记错的话这个 pp 远超 m3u ,tg 差些

    更好的硬件:
    https://zhuanlan.zhihu.com/p/30079534043
    wclebb
        15
    wclebb  
       16 小时 42 分钟前
    @tanrenye 所以这是可选项,你当然可以买云服务器超强性能,然后自行买 Mac mini ,也可以的。

    我说的是它能提供这个搭建的可能。
    退一步讲,Mac 128G 能搭建 70B 就能足够满足使用的情况下,也没多少 70B 显卡能跑的吧?

    所以我说的是:它能做,在一定预算内可选。
    普通人有钱买 67K 块 Mac 512G ?也不是没可能。
    mumbler
        16
    mumbler  
       16 小时 41 分钟前
    不用追求满血,年底 32B 就能达到 671B 水平,现在已经很接近了
    hiiragiharunatsu
        17
    hiiragiharunatsu  
       16 小时 41 分钟前
    512g 内存上下文开不了太大 和在线版质量仍然有显著差距 不知道使用两到三台 macstudio 是否能支持更大上下文 但是对中小企业绝对是利好
    swmjjy
        18
    swmjjy  
       16 小时 37 分钟前
    @wclebb 首先 4bit 671b 3w 就能跑到 10token/s 以上的速度, 然后 ds 官方的权重就是 8bit fp 的, 哪门子没有公开, 美团也公开了 8bit int 的权重, 并且合并了相应的更改到 sglang
    你没去了解=没有
    wclebb
        19
    wclebb  
       16 小时 29 分钟前
    @swmjjy 所以我说的是提供这个搭建 672B 4Bit 设备的可能。
    至于 API 还是美团上能不能点个外卖还是什么 8Bit ,我就想问问,「按能买到的 Mac Studio 512G 预算下,能做到跑大模型的有哪些 PC 或 专门设备? 」你扯 API 云的是为了想答赢我吗?

    好,你赢了。

    ——————

    承认这个 Mac 能跑 672B 有多难?
    dilidilid
        20
    dilidilid  
       16 小时 26 分钟前
    很好,但确实没啥用。不然英伟达最近跌掉的市值应该涨在苹果上
    swmjjy
        21
    swmjjy  
       16 小时 24 分钟前   ❤️ 1
    @wclebb 我哪里提到云 api 了, 我说的是权重, 没人说 mac 不能跑, 在说的是 mac 跑性价比极低, 低价不如 ktransformers 方案低, 高吞吐性价比比正规方案差 10 倍以上
    swmjjy
        22
    swmjjy  
       16 小时 22 分钟前
    @wclebb 然后能做到的预算我头上就说了, 4bit 671b 跑到 10token/s 以上只需要 3w 预算而已
    wclebb
        23
    wclebb  
       16 小时 10 分钟前
    @swmjjy #20 行吧,我承认对刚发的 GitHub 了解不多。

    我刚拿你这个 GitHub 内容发给让 ChatGPT 询问了解;
    它一开始表示不可能,所以我直接采纳了需要 3360G 这个答案;

    后来表示你只要 3W 预算就能跑,我回去问 ChatGPT 表示你是不是算错了,它纠结了半天算了半天直到现在才告诉我它承认算错了,确实 PC 24G 显存和 300G 多内存,是理论上可以跑。

    为我刚刚没理解你发 GitHub 答案抱歉。
    @swmjjy #21
    feikaras
        24
    feikaras  
       14 小时 54 分钟前
    问题是 4bit 量化啊。这又不值得说道。你都付了十万块了,还不能跑那才是笑话。
    zeyangstudies
        25
    zeyangstudies  
       12 小时 46 分钟前
    @LanhuaMa 但是人家是私有化部署的,这个是关键呀~
    june4
        26
    june4  
       12 小时 25 分钟前
    @wclebb PC 只要不到 4w, 且是 8bit, 8bit 比 4bit 强出太多根本不是一个级别
    https://mp.weixin.qq.com/s/vIrvbVJ6Nv00Ehre1zZwMw
    moudy
        27
    moudy  
    OP
       11 小时 1 分钟前
    @LanhuaMa #5 商业上很多客户资料都是有 NDA 限制的,根本不是钱的问题
    mXw
        28
    mXw  
       10 小时 49 分钟前
    这个价格 我不如直接去买 api
    WuSiYu
        29
    WuSiYu  
       2 小时 54 分钟前
    个人玩真不适合玩这么大的 moe 模型。。。有多少钱都浪费在存这些参数上了,而人家云端至少几百张卡一组跑混合专家并行,平均下来能把成本优化到跟只跑跟激活的参数一样大小的模型( 21B )差不多
    MacsedProtoss
        30
    MacsedProtoss  
       1 小时 37 分钟前 via iPhone
    @june4 然而这个方案的 token 速度很差啊…
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1133 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 28ms · UTC 18:37 · PVG 02:37 · LAX 11:37 · JFK 14:37
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.