V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
cmonkey
V2EX  ›  Local LLM

运行 LM Studio 的电脑硬件配置

  •  
  •   cmonkey · 326 天前 · 2242 次点击
    这是一个创建于 326 天前的主题,其中的信息可能已经有所发展或是发生改变。
    1. 最近在笔记本上用 LM Studio 运行 ai model, 很多 model 都需要计算很久后才能出结果
    2. 刚好家里的台式机已经服役太久跟不上现在的需求
    3. 所以问问大家,组装一台能顺畅的运行 ai model 的机器大概的配置是什么呢?
    4. 我的预算是在 1.5 -- 2 w 这个区间内
    11 条回复    2024-05-09 22:03:10 +08:00
    kuhung
        1
    kuhung  
       326 天前   ❤️ 1
    你这个预算怎么弄都能跑了,无论是大语言模型还是生图。要点就是显存够大。
    kaichen
        2
    kaichen  
       326 天前
    推理最重要的是有足够的显存可以把模型权重加载进来。

    要么是搞个内存高一些的 mac ,要么是选个实惠一些的大显存显卡(去咸鱼淘二手)

    7b 的 4bit 量化在 ~4G ,13b 的 4bit 在 ~8G ,34b 的 4bit 在 ~25GB ,70b 的 4bit 在 ~23GB
    cmonkey
        3
    cmonkey  
    OP
       326 天前
    @kuhung 谢谢你
    因为我对硬件基本完全不懂,所以到底能配置出一台是否可用的完全不知道
    我看了一些知乎上的配置,因为没有特别说运行 ai model 的,所以来这里问问
    cmonkey
        4
    cmonkey  
    OP
       326 天前
    @kaichen 好的,我看看,谢谢你
    mythabc
        5
    mythabc  
       326 天前 via Android
    一步到位 4090 。其他卡都是勉强跑起来,你会不断花时间在纠结这破卡是不是该换了。
    不要只看 int4 的模型最低的显存占用,prompt token 上去以后显存占用会暴增,平方关系。
    kaichen
        6
    kaichen  
       326 天前
    @kaichen #2

    上面 70b 写错了,4bit 在 ~ 40G 占用左右
    cmonkey
        7
    cmonkey  
    OP
       326 天前
    @mythabc 奈何荷包不厚
    passive
        8
    passive  
       326 天前 via Android
    如果只是推理,够买两张 16GB 的 4060 了
    thedog
        9
    thedog  
       326 天前
    从某种角度来说,mac studio 192G ,用来做 ai 推理,是在售成品中性价比比较高的选择之一
    shuimugan
        10
    shuimugan  
       326 天前   ❤️ 7
    这个预算,可以看看托管的价格 https://www.together.ai/pricing 不贵。


    1:不要指望单张 4090 跑大模型可以秒天秒地,实际上爆显存之后就是个弟中弟。2 张 24G 显存的卡凑 48G 也只能跑个 Mixtral-8x7B 量化版 ,这几天 CodeLlama-70b 和 Qwen1.5-72B-Chat 刚发布,你要不要跑跑?
    2:不要指望 N 卡那个显存不够使用内存的回退机制,那个只会越跑越慢慢慢慢慢,还不如直接爆了告诉你显存不够,重新划分模型的卸载层数。
    3:不要指望存粹的 CPU+大内存机器跑大模型可以秒显卡,内存的带宽真的是比显存小太太太太太多了。参考 https://www.reddit.com/r/LocalLLaMA/comments/14q4d0a/cpu_ram_only_speeds_on_65b/https://www.reddit.com/r/LocalLLaMA/comments/13upwrl/cpu_only_performance/
    4:没有 nvlink 纯靠 pcie 通讯的多卡方案,卡约多损耗越大,不要指望多卡的性能是线性增长的。参考 https://www.reddit.com/r/LocalLLaMA/comments/190f1c1/specs_and_gotchas_from_playing_with_an_llm_rig/
    5:如果你觉得 4090 太贵,想买 2 张 7900xtx 组成 48G 显存的机器,那么可以参考这个帖子的速度对比 https://www.reddit.com/r/LocalLLaMA/comments/191srof/amd_radeon_7900_xtxtx_inference_performance/
    6:如果执意要在这预算内买全新机器跑大模型,可以等等 https://github.com/SJTU-IPADS/PowerInfer 这个项目支持更多的模型和显卡。
    7:mac 的 ultra 系列 + 大内存很适合跑大模型,还可以通过命令解除默认显存只给用 80%总容量的限制,增加显存的分配,参考 https://www.reddit.com/r/LocalLLaMA/comments/186phti/m1m2m3_increase_vram_allocation_with_sudo_sysctl/
    fushenzhi
        11
    fushenzhi  
       235 天前
    LM Studio 跑 Phi 3 爽歪歪,phi3 手机上都能跑了,微软大法顶呱呱。
    苹果生态对深度学习天生友好,不差钱就上即将推出的 M4 芯片工作站。如果轻度玩玩,五六千买个 m2 的二手 mac 就够了。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1252 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 17:45 · PVG 01:45 · LAX 09:45 · JFK 12:45
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.