V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
abc634
V2EX  ›  Local LLM

请教,关于显卡内存

  •  
  •   abc634 · 3 天前 · 1113 次点击

    运行 llm 需要一定的显卡内存。 但是市面上的显卡内存超过 12G 的话就贵了。

    因此有个猜想的方案, 使用 可以分享内存的集成显卡(例如 AMD 的)

    然后可以把内存例如 32 G 分配给 集成显卡, 从而达到运行 大参数模型的目的。

    当然,我知道 集成显卡算力差,但是有时候验证原型花一些时间等待是可以接受的。

    请问有没有人这么做过,或者是否可行?

    感谢赐教先。

    20 条回复    2025-01-14 17:59:20 +08:00
    cbythe434
        1
    cbythe434  
       3 天前
    苹果统一内存,咔咔整
    Boyang
        2
    Boyang  
       3 天前
    ROG 在今年 CES 上发布的幻 X 着重就讲了这点,128G 统一内存可以分配给核显跑模型
    Remember
        3
    Remember  
       3 天前
    strix halo 了解一下?
    june4
        4
    june4  
       3 天前
    瓶颈在内存性能,每生成一个 token 都要扫一次,普通内存不行
    wangritian
        5
    wangritian  
       3 天前
    2080ti 22g 魔改版 2200 元
    hertzry
        6
    hertzry  
       3 天前 via iPhone
    用 deepspeed offload 到 cpu(内存),甚至可以 offload 到硬盘;使用 bf16 混合精度;还可以用 bitsandbytes 量化到 8bit 和 4bit 。
    ztmzzz
        7
    ztmzzz  
       3 天前 via iPhone
    14b 模型 lora 微调,用 deepspeed offload 到内存和直接跑对比,速度差了一倍。如果能接受就还可行。
    paopjian
        8
    paopjian  
       3 天前
    可行,意义不大, 会导致频繁的内存-显存交换, wsl2 好像早就可以了, 搜索 NVIDIA shared memory
    MacsedProtoss
        9
    MacsedProtoss  
       3 天前 via iPhone
    你是不是在找:Mac Studio
    emberzhang
        10
    emberzhang  
       3 天前
    验证原型?验证什么原型。。。
    plasticman64
        11
    plasticman64  
       3 天前
    喜欢玩 LLM ,买 mac
    gam2046
        12
    gam2046  
       3 天前
    可以,但是慢,受限于内存到 GPU 之间的内存带宽,慢到几乎没有可用性。GPU 根本跑不满的程度。
    joynvda
        13
    joynvda  
       3 天前
    理论上应该可以给核显 32G 内存;更高就不清楚了;
    最近才发现笔记本 64G 内存,有 32G 标记为显存;
    而通过 intel python 环境(有 win 版的),应该可以吧。还没验证。自己的是 12 代 U i7 ,DDR4 。动力不大。

    至于什么验证模型,推理模型不如直接用国内平台提供的。无需折腾运行环境。
    ryd994
        14
    ryd994  
       3 天前 via Android
    共享显存(也就是你说的情况):显存性能太差
    洋垃圾计算卡:算力不高,功耗太高
    魔改显卡:价格贵,稳定性堪忧
    kaseki2023
        15
    kaseki2023  
       1 天前
    显卡有个指标叫运算强度,指 1B 数据加载到计算单元时间内,计算单元可以执行的计算次数,如果用主存或者硬盘来传输,你会发现远远摸不到这个指标
    abc634
        16
    abc634  
    OP
       17 小时 20 分钟前
    @joynvda
    理论上应该可以给核显 3 验证模型,推理模型不如直接用国内平台提供的

    谢谢,使用第三方平台确实有考虑,但是在联调中希望先确认模型可用,
    比如手上有 5 个模型,根本不知道哪个质量好,希望先本地验证可用,再用平台的去跑。
    主要是觉得这样方便。
    abc634
        17
    abc634  
    OP
       17 小时 15 分钟前
    @Boyang
    感谢,我也关注 幻 X 看看(如果笔记本便携又可以跑本地模型,感觉非常理想)

    ROG 在今年 CES 上发布的着重就讲了这点,128G 统一内存可以分配给核显跑模型

    @Remember
    strix halo 这个好像也是个选择,不知道是不是和 幻 X 同个路线。

    @MacsedProtoss @plasticman64
    谢谢了,只是 Mac Studio 暂时不考虑。
    abc634
        18
    abc634  
    OP
       17 小时 14 分钟前
    其他各位的经验,也谢谢分享。
    mili100
        19
    mili100  
       15 小时 54 分钟前
    也许可以尝试下 Ollama/llama.cpp ,没有显卡但是有高性能 CPU 纯 CPU 推理只要有足够的许多模型都能够运行的,特别是对于激活参数较小的 MoE 模型(比如 Deepseek )。
    在我的环境下( R9 7945HX + 96G RAM ) Deepseek-v2.5-1210 IQ2_XS 能有几到十几的 TPS ,奈何没有更大的内存,我觉得只要有 256G RAM Q4_0/Q4_K_M 也许也是没有问题的。
    在 X 上也有人纯 CPU 成功运行起来了 Deepseek-v3 而且似乎还不错: https://x.com/nisten/status/1877276141905387565
    Remember
        20
    Remember  
       15 小时 26 分钟前
    @abc634 幻 x 搭载的就是 stx halo ,号称 128G 内存可以分 96 给显卡。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5276 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 01:25 · PVG 09:25 · LAX 17:25 · JFK 20:25
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.