现在手上有一台 NVIDIA DGX Spark(对就是 3 万多的那个,闭眼别问为啥),目前已完成以下配置:
推理速度极慢,具体表现如下:
查阅官方论坛及社区资料后发现:
Ollama 的部署方式并未针对 DGX Spark 做专项优化,社区普遍推荐在该平台上改用 llama.cpp 直接部署,以充分发挥其 GB10 超级芯片 Unified Memory 统一内存架构的优势。
或者上面的我说的不对,我有看专门设置,但是实际就是很烂
有没有在 DGX Spark 上实际跑过 llama.cpp 的老哥?希望得到以下指点:
希望有经验的老哥帮我指点一二!🙏
1
coefu 3 月 5 日
1,你小子真舍得,牛逼。
2 ,我没有设备,你的问题没办法回答。 3 ,如果你愿意共享出来,还是能帮你 debug 试一下的。 |
2
diudiuu OP |
3
coefu 3 月 5 日
|
5
diudiuu OP @coefu 这个机子也不是我花钱买的,大哥给小弟再看看这个 https://2libra.com/post/ai-tools/SE99dqq 这俩机子推荐哪个,之前我也有问过没有人回答
|
6
coefu 3 月 5 日
@diudiuu #5 不差钱的话,全都买啊。mac studio m3 ultra 要是不搞 512g mem ,意义不大,顶配要 10w ,比 dgx spark 贵太多了。如果预算有限,就 dgx spark 咯?反正现在小模型的智能密度很高了。你要专业性和准确性的话,用 rag 提升,当前 ocr 和 rerank 都发展的不错了。
mac studio m3 ultra 可以串起来,组一个 1T mem 的组合 跑 671B 的 deepseek 。不差钱儿的话,这个肯定更好。 |
8
diudiuu OP @coefu 大哥你真的可以给这些天天自己搭建模型的公司当顾问了,你甚至可以出一个配置表,教程,推荐什么模型一份 99 块. 我现在有个群里面出的是搭建这些 openclaw 教程,一键开服务器卖 token,一份 99.
我想把你介绍给我朋友 |
9
coefu 3 月 5 日
|
10
NikoXu 3 月 10 日
oss 120B 快是因为激活参数才 5B
|
12
enihcam 19 天前 via Android
|
13
diudiuu OP @enihcam ollama 不用这个,老老实实用 cpp 安装,性能达到最高,现在装的是 minimax 2.5 的 200b 左右的
上面那个大哥已经分析过了,可以看这个帖子 https://www.v2ex.com/t/1126516 |
16
enihcam 18 天前 via Android
exllamav3 是不是比 llama.cpp 更友好呢?
|
17
diudiuu OP |
18
enihcam 18 天前
|
19
diudiuu OP @enihcam
这个说的 vllm ,我个人理解总体是提高并发了 vllm > llama.cpp >>>> ollama 玩具 这台机子 DGX Spark 具体问题,建议去这里找 https://forums.developer.nvidia.com/t/pre-installed-ollama-configuration/349480/12 vllm 和 sglang 我在论坛里面有看过,还是用 llama.cpp 方式去部署了 https://2libra.com/post/ai-applications/vc337z0 这个是我详细部署 oss 120b 的帖子 部署 minamax2.5 也是在 nvidia 论坛里面找到的原帖子,懒得记录了,参数略多 |
20
enihcam 18 天前 via Android
@diudiuu nvidia 官网说,tensorrtllm 已经预置在 dgxOS 里了,为啥你还要自己搞 llamacpp ?就好奇一下
|
21
diudiuu OP @enihcam 摸石头过河,没人教啊,自己知道一点,比如 ollama 部署,但是吧实际效果非常不好,
然后就找原因,看到 cpp 和 vllm ,对比看具体原因,cpp 方式论坛里特别多,就抄了 后面才知道的 tensorrtllm ,现在很多人一股脑都是 ollama ,具体问题具体分析吧 多交流相互学习提升 |
22
enihcam 17 天前 via Android
我还在纠结,DGX Spark 3 万元,除以 36 个月(假设三年以后性能过时),每月 800 多。这个钱为啥不拿来买 token plan ? DGX Spark 还有什么额外价值?
|
23
diudiuu OP @enihcam 你可以买那个 mac studio,还能当个常用的开发工具,这个建议你还是不要了,你真的想要可以买 github copilot pro,那个把高级额度用完可以用 chatgpt 5 mini,随便用,这个线上再烂也比本地的强.
我这个 dgx spark 现在就是跑了一个本地模型算股票,没有其他任何作用 |
25
diudiuu OP @enihcam 你这太高级了,现在就是写脚本导出抓取新闻+openclaw ,每隔一段时间就是抓取,然后形成文档,最后整理 ai 分析+我关注的股票,定时发给我,最终还是要靠自己看. 我看不懂股票,两个人合作的,我主要搞 ai 和数据,有另外一个朋友专门看数据,然后修改。
|
27
diudiuu OP @enihcam 国内人白嫖的居多
@coefu 大哥给老弟看看呗 都来看下最新部署 gemma4 31b 的效果 https://2libra.com/post/ai-applications/KT_9AES 目前结论是卡在这台 dgx spark 机子本身的带宽了,有什么建议,相互交流一下 |
31
coefu 11 天前
@diudiuu #27 dgx spark 这么拉,我还想攒钱买呢,一看到
Memory:128 GB LPDDR5x unified system memory, 256-bit interface, 4266 MHz, 273 GB/s bandwidth JD 上面要 3.4w ,就给个这。 我发现一个神卡,Nvidia tesla A16. spark 就这尿性了,mem bandwidth 决定了的,推理引擎也救不了。 还不如 amd mi250: GPU Memory Dedicated Memory Size 128 GB Dedicated Memory Type HBM2e Memory Interface 8192-bit Memory Clock 1.6 GHz Peak Memory Bandwidth 3.2 TB/s Memory ECC Support Yes (Full-Chip) 看 mi250 这屌炸天的 3.2T mem bandwidth ,就算是 rocm 拉,也就是优化 rocm 的事情,现在 LLM coder 都能整 cuda ,难道不能整 rocm ?看好 amd ,yes ! |
32
coefu 11 天前
@enihcam #22 dgx spark 纯属老黄恶心人的,喜欢搞一些非 HBM 的 消费级 gddrX 显存 搞成超算产品。
什么 A10 ,A16 ,就是 Ampere 核心 + gddrX 显存。 特别是 A16 这个奇葩,搞了 4 个 弱 Ampere 核心(只有 1280 个 cuda+40 个 tensor core )+ 16G gddr6 ,一张卡凑了 64G 。每个 Ampere 到 gddr6 有 200GB/s 的 bandwidth ,四个 core 片上走 pcie 直通,tensor parallel inference 能搞到 800GB/s 。 |
35
diudiuu OP @coefu 赚个鸡,我现在就负责天天研究装模型,其他的不管了
https://2libra.com/post/ai-applications/ovZiTd0 上面是我装 26B 的测试结果,有两个测试结果没有写 这俩的 Q8 25token/s Q6 32token/s,现在用的 Q6 的 这个机子的带宽说实话,一言难尽,出水管太细了 |
37
coefu 11 天前
@enihcam #36 还有一个极致的 hack 128G 方案,只怕你技术不行。
amd mi50 32G * 4 。 最关键是,mi50 32G 因为其折腾的门槛,海鲜市场当前 950 一张,4 张 才一张 nvidia tesla v100 32G 的价格。 但是,复杂的 rocm 配置,和多卡 tensor parallel 的技术,有点门槛的。 |
39
coefu 10 天前
@enihcam #36 A16 这种,配合 LatentMAS ,实际上是当前最佳方案了。同一张卡有 4 个 gpu ,可以跑 4 个 qwen3.5 9B Q8 ,合作的好的话,能力提升是指数级的。
|
41
puzzle1 6 天前
MiniMax-M2.5 UD-Q3_K_XL 这个模型 大概多少 token/s
|
43
puzzle1 5 天前
老哥你这个多钱买的,想买一个买来玩玩,看看能不能做出什么东西 你感觉有必要吗 还是买 mac studio 好
|
44
diudiuu OP @puzzle1 3 万 2 大洋京东买的,个人感觉不划算这个机子带宽太低了,gemma4 31b 16bf 完全可以使用,就是带宽太低了导致他吐出 2.5token/s
真的要买,还是要多了解后自己组装吧。mac studio 不敢推荐啊,毕竟这玩意都挺贵的 |
45
puzzle1 5 天前
好的 谢谢 那就不考虑了 确实 带宽太低了
|
46
qazwsxkevin 3 天前
@diudiuu 如果拿来做 c++,python 的 vibe code,review;或者给出初高中的数学物理,某题的解题思路;
就这两类事情, DGX Spark 128G 跑个什么模型能基本应付呢? 如果有合适(或者将就)的模型情况,85%额定容量的上下文打进去,Spark 要多久时间,才有反应开始出 tokens? 每秒能吐多少 tokens? |