V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
ChipWat
V2EX  ›  Local LLM

mac mini 24g 大模型推理怎么样

  •  
  •   ChipWat · 2024-08-11 17:16:54 +08:00 · 6989 次点击
    这是一个创建于 386 天前的主题,其中的信息可能已经有所发展或是发生改变。

    背景: 之前有一个 2018 年的 mac intel 16g 的 mbp ,但是由于续航不行和有点儿发热。故喜新厌旧的换成了 apple M 芯片 18g 的 2023mbp 。

    有时候偶尔本地跑下大模型推理,使用 ollama 在 2018 mbp 和 2023 mbp 都部署了下 14b 的 Qwen 量化模型,发现 2018 mbp 的更加流畅(目测 10token/秒),2023 mbp 比较卡顿(目测 3token/秒)。

    问题:

    准备入手一个 Mac mini 24g , 想问下有没有大佬测试过,Qwen 模型 8b 、14b 各个量化精度情况下的每秒 token 表现。

    27 条回复    2024-08-14 21:51:51 +08:00
    unidotnet
        1
    unidotnet  
       2024-08-11 20:02:57 +08:00
    24G 算了,64G 路过表示 14b ,int4 的话,占 40G 内存左右,自己算算吧。
    zmxnv123
        2
    zmxnv123  
       2024-08-11 20:10:23 +08:00
    刚入了台 24g 的 mini ,还没测
    neteroster
        3
    neteroster  
       2024-08-11 20:14:10 +08:00
    @unidotnet #1
    14B 4 位怎么可能 40G ,bf16 不加上下文都没这么大
    ChipWat
        4
    ChipWat  
    OP
       2024-08-11 20:18:35 +08:00
    @zmxnv123 #2 求帮忙测测,其它模型也行,给个参考
    zmxnv123
        5
    zmxnv123  
       2024-08-11 20:27:31 +08:00
    @ChipWat 怎么测,留你 tg 私聊
    ChipWat
        6
    ChipWat  
    OP
       2024-08-11 20:27:53 +08:00
    @unidotnet #1 我帖子里使用 Qwen1.5 parameters:14.2B quantization:Q4_0 文件大小:8.2GB 测的。老哥是不是还有其它应用,macos 系统策略是尽可能多的使用内存吧。
    shuimugan
        7
    shuimugan  
       2024-08-11 22:06:23 +08:00   ❤️ 2
    大模型跑推理速度首先取决于带宽,带宽有冗余再看算力。mini 那个小水管用来跑大模型就是个电子垃圾,只有 ultra 才值得跑大模型。
    速度一览: https://github.com/ggerganov/llama.cpp/discussions/4167
    简单粗暴的推理速度公式计算就是:同样的量化,14B 速度不到 7B 的 1/2 ,70B 的速度不到 7B 的 1/10
    heyjei
        8
    heyjei  
       2024-08-11 22:17:50 +08:00
    在 mac 上面,你们是怎么跑大模型的?用 ollama 吗?
    KcKXpykSg2777f5I
        9
    KcKXpykSg2777f5I  
       2024-08-11 22:24:04 +08:00 via Android
    AMD 7840hs ,32G 内存,分配 8G 显存,跑 14B 能用的状态,所以 24G 跑 14B 应该问题不大,7B 很轻松了
    Attenton
        10
    Attenton  
       2024-08-11 23:07:22 +08:00
    @unidotnet 14b 即使是 fp16 也只是大概 28G 左右,int4 怎么可能要 40G
    alexmy
        11
    alexmy  
       2024-08-11 23:20:11 +08:00
    2018 16G mbp 还在服役中,也想换个,瞧瞧 m4 出来后什么情况。
    graetdk
        12
    graetdk  
       2024-08-11 23:22:05 +08:00
    18G 的 M3 ,ollama 跑所有的 10B 以下的模型都很爽,而且感觉够用
    mumbler
        13
    mumbler  
       2024-08-11 23:32:15 +08:00
    gemma2 9B 能打 qwen1.5 110B ,M 芯片下能跑到 20+token 的速度,且中文支持很好

    可以访问 flashai.com.cn 下载 gemma2 9B 本地大模型一键整合包,支持 mac ,自带 ollama+图形界面+知识库
    234ygg
        14
    234ygg  
       2024-08-12 00:04:59 +08:00 via iPhone
    gemma2 9b 勉强能跑的水平吧?但效果很差,满嘴胡言乱语 也就仅适合做做翻译。。
    效果应该比我 4090 好点,4090 跑这玩意功耗 250W 简直爆炸,最烦的是电感在那丝丝叫。
    做翻译那还不如直接用 gpt4o ,四舍五入不要钱
    yinmin
        15
    yinmin  
       2024-08-12 02:03:57 +08:00 via iPhone
    个人在本地部署跑 9b 、14b 实用价值不大,也就玩票。deepseek 、glm-4-air 、gpt-4o-mini 的 api 价格已经低到可以忽略不计(个人使用),功能远超开源小模型。

    目前企业(尤其是涉密单位)在内网部署小模型,做些文字审查、文字格式提炼的专项业务比较实用。
    bugcreator
        16
    bugcreator  
       2024-08-12 07:46:47 +08:00 via iPhone
    32gm2max 跑 ollama 3.0 8b 我觉得比 qwen 聪明
    ZiM77FAp328moIuB
        17
    ZiM77FAp328moIuB  
       2024-08-12 08:01:57 +08:00 via iPhone
    最近在纠结 买个 24g 的 mac mini m2 还是买个 32g 的 m1max studio(现在 9000 块)
    murmur
        18
    murmur  
       2024-08-12 08:22:23 +08:00
    如果没有研究或者折腾的打算,买付费商业大模型更划算
    kzzhr
        19
    kzzhr  
       2024-08-12 08:38:40 +08:00 via Android
    m 几呀? 3t/s 感觉像是没走 GPU ,可以看下监控
    lairdnote
        20
    lairdnote  
       2024-08-12 09:25:12 +08:00
    macbook. 32G. 跑 gemma2b 还可以
    weixind
        21
    weixind  
       2024-08-12 09:45:15 +08:00
    @jwwwii 秋季发布会会发 m4 的 mac mini 吧。
    xing7673
        22
    xing7673  
       2024-08-12 10:16:33 +08:00
    @unidotnet llm 推理内存很好算,q4 约等于当前参数/2=内存,比如 14b 应该是 7g 内存左右。
    以此类推 q8 14b=14g
    f16 14b=28g
    还需要加一些推理机制内存,不过大抵可以这么推算。
    建议先自己运行检查一遍
    wingerwwang
        23
    wingerwwang  
       2024-08-12 10:49:18 +08:00 via iPhone   ❤️ 1
    m1max 32g 跑 llama3.1 7B 效果不错,6g 内存上下。效果比我试过的其他几个 13B 都要好。
    beyondsoft
        24
    beyondsoft  
       2024-08-12 10:53:12 +08:00
    建议直接租 GPU RTX3090 白菜价了 llama 3.1 8B 推理差不多能到速度 40 token /s
    8355
        25
    8355  
       2024-08-12 13:59:12 +08:00
    只能跑小模型吧。。大模型好像要内存拉满了
    unidotnet
        26
    unidotnet  
       2024-08-14 20:45:02 +08:00
    @xing7673
    @neteroster
    @ChipWat
    @Attenton

    计算模型要多少内存没问题,我是个人使用经验。但 mac 共享内存,总不见得啥别的系统开销都不要吧,纯命令行裸写一堆 json 去交互。。。 跑模型把别的应用都关了就没啥实用价值。再多做点,开始 embed , 比如跑点 neo4j 什么的是吧,界面要有个吧,跑个 docker ,web 界面 chrome 总要开着。。楼主的 24G 就不够了。我 codestral 22b 周日持续输出了几小时推理,GPU full ,内存虽然 64G 没用满,但是基本在 40 几 G , 除非 pumas 命令显示不正确。
    xing7673
        27
    xing7673  
       2024-08-14 21:51:51 +08:00
    @unidotnet #26 你这回复。。。。。没必要
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1096 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 23:07 · PVG 07:07 · LAX 16:07 · JFK 19:07
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.