请教，关于显卡内存

10 天前

abc634

运行 llm 需要一定的显卡内存。但是市面上的显卡内存超过 12G 的话就贵了。

因此有个猜想的方案，使用可以分享内存的集成显卡（例如 AMD 的）

然后可以把内存例如 32 G 分配给集成显卡，从而达到运行大参数模型的目的。

当然，我知道集成显卡算力差，但是有时候验证原型花一些时间等待是可以接受的。

请问有没有人这么做过，或者是否可行？

感谢赐教先。

1293 次点击

所在节点

Local LLM

20 条回复

cbythe434

10 天前

苹果统一内存，咔咔整

Boyang

10 天前

ROG 在今年 CES 上发布的幻 X 着重就讲了这点，128G 统一内存可以分配给核显跑模型

Remember

10 天前

strix halo 了解一下？

june4

10 天前

瓶颈在内存性能，每生成一个 token 都要扫一次，普通内存不行

wangritian

10 天前

2080ti 22g 魔改版 2200 元

hertzry

10 天前

用 deepspeed offload 到 cpu(内存)，甚至可以 offload 到硬盘；使用 bf16 混合精度；还可以用 bitsandbytes 量化到 8bit 和 4bit 。

ztmzzz

10 天前

14b 模型 lora 微调，用 deepspeed offload 到内存和直接跑对比，速度差了一倍。如果能接受就还可行。

paopjian

10 天前

可行,意义不大, 会导致频繁的内存-显存交换, wsl2 好像早就可以了, 搜索 NVIDIA shared memory

MacsedProtoss

10 天前

你是不是在找：Mac Studio

emberzhang

10 天前

验证原型？验证什么原型。。。

plasticman64

10 天前

喜欢玩 LLM ，买 mac

gam2046

9 天前

可以，但是慢，受限于内存到 GPU 之间的内存带宽，慢到几乎没有可用性。GPU 根本跑不满的程度。

joynvda

9 天前

理论上应该可以给核显 32G 内存；更高就不清楚了；
最近才发现笔记本 64G 内存，有 32G 标记为显存；
而通过 intel python 环境（有 win 版的），应该可以吧。还没验证。自己的是 12 代 U i7 ，DDR4 。动力不大。

至于什么验证模型，推理模型不如直接用国内平台提供的。无需折腾运行环境。

ryd994

9 天前

共享显存（也就是你说的情况）：显存性能太差
洋垃圾计算卡：算力不高，功耗太高
魔改显卡：价格贵，稳定性堪忧

kaseki2023

8 天前

显卡有个指标叫运算强度，指 1B 数据加载到计算单元时间内，计算单元可以执行的计算次数，如果用主存或者硬盘来传输，你会发现远远摸不到这个指标

abc634

7 天前

@joynvda
理论上应该可以给核显 3 验证模型，推理模型不如直接用国内平台提供的

谢谢，使用第三方平台确实有考虑，但是在联调中希望先确认模型可用，
比如手上有 5 个模型，根本不知道哪个质量好，希望先本地验证可用，再用平台的去跑。
主要是觉得这样方便。

abc634

7 天前

@Boyang
感谢，我也关注幻 X 看看（如果笔记本便携又可以跑本地模型，感觉非常理想）

ROG 在今年 CES 上发布的着重就讲了这点，128G 统一内存可以分配给核显跑模型

@Remember
strix halo 这个好像也是个选择，不知道是不是和幻 X 同个路线。

@MacsedProtoss @plasticman64
谢谢了，只是 Mac Studio 暂时不考虑。

abc634

7 天前

其他各位的经验，也谢谢分享。

mili100

7 天前

也许可以尝试下 Ollama/llama.cpp ，没有显卡但是有高性能 CPU 纯 CPU 推理只要有足够的许多模型都能够运行的，特别是对于激活参数较小的 MoE 模型（比如 Deepseek ）。
在我的环境下（ R9 7945HX + 96G RAM ） Deepseek-v2.5-1210 IQ2_XS 能有几到十几的 TPS ，奈何没有更大的内存，我觉得只要有 256G RAM Q4_0/Q4_K_M 也许也是没有问题的。
在 X 上也有人纯 CPU 成功运行起来了 Deepseek-v3 而且似乎还不错： https://x.com/nisten/status/1877276141905387565

Remember

7 天前

@abc634 幻 x 搭载的就是 stx halo ，号称 128G 内存可以分 96 给显卡。

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1104370

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.