V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
diudiuu
0.04D
V2EX  ›  Local LLM

[求助] DGX Spark 上 Ollama 推理极慢,改用 llama.cpp 部署是否更合适?

  •  
  •   diudiuu · 3 月 3 日 · 1551 次点击
    这是一个创建于 53 天前的主题,其中的信息可能已经有所发展或是发生改变。

    现在手上有一台 NVIDIA DGX Spark(对就是 3 万多的那个,闭眼别问为啥),目前已完成以下配置:

    • OpenClaw 已部署并正常运行
    • Ollama 已部署,加载了本地 70B 模型

    问题描述

    推理速度极慢,具体表现如下:

    • 发送 "Hello" 这类简单问候,响应时间长达 30 秒以上
    • 尝试换用 8B 小模型,速度几乎没有改善,与 70B 差异微乎其微

    排查结论

    查阅官方论坛及社区资料后发现:

    Ollama 的部署方式并未针对 DGX Spark 做专项优化,社区普遍推荐在该平台上改用 llama.cpp 直接部署,以充分发挥其 GB10 超级芯片 Unified Memory 统一内存架构的优势。

    或者上面的我说的不对,我有看专门设置,但是实际就是很烂


    求助

    有没有在 DGX Spark 上实际跑过 llama.cpp 的老哥?希望得到以下指点:

    1. 具体部署步骤 或踩坑经验分享
    2. 相比 Ollama ,推理速度提升是否明显
    3. 是否有其他更适合 DGX Spark 的推理框架推荐?(如 vLLM 、MLX 等)

    希望有经验的老哥帮我指点一二!🙏

    第 1 条附言  ·  11 天前
    说实话大家不要买了这个机子跑本地模型了

    带宽太低了,出水口太细了,模型再厉害也顶不住这个带宽小

    有问题,希望牛逼的大哥来给小弟指教一下
    46 条回复    2026-04-22 01:00:13 +08:00
    coefu
        1
    coefu  
       3 月 5 日
    1,你小子真舍得,牛逼。
    2 ,我没有设备,你的问题没办法回答。
    3 ,如果你愿意共享出来,还是能帮你 debug 试一下的。
    diudiuu
        2
    diudiuu  
    OP
       3 月 5 日
    @coefu
    🤫🤫🤫🤫

    https://2libra.com/post/ai-applications/vc337z0

    快来先学习,已经解决了
    coefu
        3
    coefu  
       3 月 5 日
    @diudiuu https://www.v2ex.com/t/1126516

    小伙子,在我面前耍大刀了啊。我只是没有钱买 dgx-spark 。
    diudiuu
        4
    diudiuu  
    OP
       3 月 5 日
    @coefu 牛逼牛逼牛逼我屮艸芔茻
    你这这个分析挺厉害,大哥受小弟一拜.
    diudiuu
        5
    diudiuu  
    OP
       3 月 5 日
    @coefu 这个机子也不是我花钱买的,大哥给小弟再看看这个 https://2libra.com/post/ai-tools/SE99dqq 这俩机子推荐哪个,之前我也有问过没有人回答
    coefu
        6
    coefu  
       3 月 5 日
    @diudiuu #5 不差钱的话,全都买啊。mac studio m3 ultra 要是不搞 512g mem ,意义不大,顶配要 10w ,比 dgx spark 贵太多了。如果预算有限,就 dgx spark 咯?反正现在小模型的智能密度很高了。你要专业性和准确性的话,用 rag 提升,当前 ocr 和 rerank 都发展的不错了。

    mac studio m3 ultra 可以串起来,组一个 1T mem 的组合 跑 671B 的 deepseek 。不差钱儿的话,这个肯定更好。
    coefu
        7
    coefu  
       3 月 5 日
    @diudiuu #5 我几百块的成本捡的垃圾,都组了一个智能密度看起来还可以的♾️tokens 。只是有时候慢一点。😄
    diudiuu
        8
    diudiuu  
    OP
       3 月 5 日
    @coefu 大哥你真的可以给这些天天自己搭建模型的公司当顾问了,你甚至可以出一个配置表,教程,推荐什么模型一份 99 块. 我现在有个群里面出的是搭建这些 openclaw 教程,一键开服务器卖 token,一份 99.

    我想把你介绍给我朋友
    coefu
        9
    coefu  
       3 月 5 日
    @diudiuu #8 谢谢你先,但是我没搞🦞。而且,我对🦞这个方向没什么兴趣,😄。

    去年这个时候,我把 langchain/rag 那套都搞过一遍,没什么意思。LLMs 整个领域,我都只用而已。
    NikoXu
        10
    NikoXu  
       3 月 10 日
    oss 120B 快是因为激活参数才 5B
    diudiuu
        11
    diudiuu  
    OP
       3 月 11 日
    @NikoXu 已经更换本地模型了, 更换成这个了 MiniMax-M2.5 UD-Q3_K_XL,比 oss 120B 更大更快
    enihcam
        12
    enihcam  
       19 天前 via Android
    你是不是哪个地方没设置对?


    https://ollama.com/blog/nvidia-spark-performance
    diudiuu
        13
    diudiuu  
    OP
       19 天前
    @enihcam ollama 不用这个,老老实实用 cpp 安装,性能达到最高,现在装的是 minimax 2.5 的 200b 左右的
    上面那个大哥已经分析过了,可以看这个帖子 https://www.v2ex.com/t/1126516
    diudiuu
        14
    diudiuu  
    OP
       19 天前
    diudiuu
        15
    diudiuu  
    OP
       19 天前
    @enihcam lm studio 这个你也不要试了达不到顶级的,这个里面设置的参数仿佛是假的
    enihcam
        16
    enihcam  
       18 天前 via Android
    exllamav3 是不是比 llama.cpp 更友好呢?
    diudiuu
        17
    diudiuu  
    OP
       18 天前
    @enihcam 没有试过,cpp 论坛里面例子最多,问题基本都解决了.

    https://github.com/NVIDIA/TensorRT-LLM 你可以看看这个,英伟达专门出的
    diudiuu
        19
    diudiuu  
    OP
       18 天前
    @enihcam
    这个说的 vllm ,我个人理解总体是提高并发了
    vllm > llama.cpp >>>> ollama 玩具

    这台机子 DGX Spark 具体问题,建议去这里找
    https://forums.developer.nvidia.com/t/pre-installed-ollama-configuration/349480/12

    vllm 和 sglang 我在论坛里面有看过,还是用 llama.cpp 方式去部署了
    https://2libra.com/post/ai-applications/vc337z0 这个是我详细部署 oss 120b 的帖子

    部署 minamax2.5 也是在 nvidia 论坛里面找到的原帖子,懒得记录了,参数略多
    enihcam
        20
    enihcam  
       18 天前 via Android
    @diudiuu nvidia 官网说,tensorrtllm 已经预置在 dgxOS 里了,为啥你还要自己搞 llamacpp ?就好奇一下
    diudiuu
        21
    diudiuu  
    OP
       18 天前
    @enihcam 摸石头过河,没人教啊,自己知道一点,比如 ollama 部署,但是吧实际效果非常不好,
    然后就找原因,看到 cpp 和 vllm ,对比看具体原因,cpp 方式论坛里特别多,就抄了

    后面才知道的 tensorrtllm ,现在很多人一股脑都是 ollama ,具体问题具体分析吧

    多交流相互学习提升
    enihcam
        22
    enihcam  
       17 天前 via Android
    我还在纠结,DGX Spark 3 万元,除以 36 个月(假设三年以后性能过时),每月 800 多。这个钱为啥不拿来买 token plan ? DGX Spark 还有什么额外价值?
    diudiuu
        23
    diudiuu  
    OP
       17 天前
    @enihcam 你可以买那个 mac studio,还能当个常用的开发工具,这个建议你还是不要了,你真的想要可以买 github copilot pro,那个把高级额度用完可以用 chatgpt 5 mini,随便用,这个线上再烂也比本地的强.

    我这个 dgx spark 现在就是跑了一个本地模型算股票,没有其他任何作用
    enihcam
        24
    enihcam  
       17 天前 via Android
    @diudiuu 我去,我也是用来算股票的。你用的 FinRobot 还是啥?
    diudiuu
        25
    diudiuu  
    OP
       17 天前
    @enihcam 你这太高级了,现在就是写脚本导出抓取新闻+openclaw ,每隔一段时间就是抓取,然后形成文档,最后整理 ai 分析+我关注的股票,定时发给我,最终还是要靠自己看. 我看不懂股票,两个人合作的,我主要搞 ai 和数据,有另外一个朋友专门看数据,然后修改。
    enihcam
        26
    enihcam  
       16 天前 via Android
    @diudiuu 我正好在落地类似的产品,可以理解为新闻订阅+分析。你觉得会有付费意愿吗?海外。
    diudiuu
        27
    diudiuu  
    OP
       15 天前
    @enihcam 国内人白嫖的居多
    @coefu 大哥给老弟看看呗

    都来看下最新部署 gemma4 31b 的效果
    https://2libra.com/post/ai-applications/KT_9AES

    目前结论是卡在这台 dgx spark 机子本身的带宽了,有什么建议,相互交流一下
    pikko
        28
    pikko  
       14 天前
    @enihcam #22 三年后我是不能卖了吗。而且这个机器强项在边缘微调模型测试
    enihcam
        29
    enihcam  
       14 天前 via Android
    @pikko 属于搞笑了。问你,三年后的计算场景是啥?
    diudiuu
        30
    diudiuu  
    OP
       14 天前
    @enihcam 哈哈哈哈 买给我公司,我公司喜欢买别人九手的东西
    coefu
        31
    coefu  
       11 天前
    @diudiuu #27 dgx spark 这么拉,我还想攒钱买呢,一看到

    Memory:128 GB LPDDR5x unified system memory, 256-bit interface, 4266 MHz, 273 GB/s bandwidth

    JD 上面要 3.4w ,就给个这。

    我发现一个神卡,Nvidia tesla A16.

    spark 就这尿性了,mem bandwidth 决定了的,推理引擎也救不了。 还不如 amd mi250:

    GPU Memory
    Dedicated Memory Size
    128 GB
    Dedicated Memory Type
    HBM2e
    Memory Interface
    8192-bit
    Memory Clock
    1.6 GHz
    Peak Memory Bandwidth
    3.2 TB/s
    Memory ECC Support
    Yes (Full-Chip)

    看 mi250 这屌炸天的 3.2T mem bandwidth ,就算是 rocm 拉,也就是优化 rocm 的事情,现在 LLM coder 都能整 cuda ,难道不能整 rocm ?看好 amd ,yes !
    coefu
        32
    coefu  
       11 天前
    @enihcam #22 dgx spark 纯属老黄恶心人的,喜欢搞一些非 HBM 的 消费级 gddrX 显存 搞成超算产品。

    什么 A10 ,A16 ,就是 Ampere 核心 + gddrX 显存。 特别是 A16 这个奇葩,搞了 4 个 弱 Ampere 核心(只有 1280 个 cuda+40 个 tensor core )+ 16G gddr6 ,一张卡凑了 64G 。每个 Ampere 到 gddr6 有 200GB/s 的 bandwidth ,四个 core 片上走 pcie 直通,tensor parallel inference 能搞到 800GB/s 。
    coefu
        33
    coefu  
       11 天前
    @enihcam #26 你搞到技术面,还是基本面?基本面,我有大招。远超市面上的技术。
    coefu
        34
    coefu  
       11 天前
    @diudiuu #25 你们赚钱了没?
    diudiuu
        35
    diudiuu  
    OP
       11 天前
    @coefu 赚个鸡,我现在就负责天天研究装模型,其他的不管了

    https://2libra.com/post/ai-applications/ovZiTd0

    上面是我装 26B 的测试结果,有两个测试结果没有写
    这俩的 Q8 25token/s Q6 32token/s,现在用的 Q6 的

    这个机子的带宽说实话,一言难尽,出水管太细了
    enihcam
        36
    enihcam  
       11 天前
    @coefu ”Nvidia tesla A16“+整个系统,价格超标; MI250 京东没有自营。
    coefu
        37
    coefu  
       11 天前
    @enihcam #36 还有一个极致的 hack 128G 方案,只怕你技术不行。

    amd mi50 32G * 4 。 最关键是,mi50 32G 因为其折腾的门槛,海鲜市场当前 950 一张,4 张 才一张 nvidia tesla v100 32G 的价格。

    但是,复杂的 rocm 配置,和多卡 tensor parallel 的技术,有点门槛的。
    coefu
        38
    coefu  
       11 天前
    @coefu #37 不过,mi50 夸张的 1.02T/s bandwidth + pcie 4.0 ,足够有吸引力了.
    coefu
        39
    coefu  
       10 天前
    @enihcam #36 A16 这种,配合 LatentMAS ,实际上是当前最佳方案了。同一张卡有 4 个 gpu ,可以跑 4 个 qwen3.5 9B Q8 ,合作的好的话,能力提升是指数级的。
    enihcam
        40
    enihcam  
       10 天前
    @coefu 我就没有技术,这不是我的兴趣点。
    puzzle1
        41
    puzzle1  
       6 天前
    MiniMax-M2.5 UD-Q3_K_XL 这个模型 大概多少 token/s
    diudiuu
        42
    diudiuu  
    OP
       6 天前
    @puzzle1 20 左右,这个非常消耗 128g 的,啥也不干就剩下 6%
    puzzle1
        43
    puzzle1  
       5 天前
    老哥你这个多钱买的,想买一个买来玩玩,看看能不能做出什么东西 你感觉有必要吗 还是买 mac studio 好
    diudiuu
        44
    diudiuu  
    OP
       5 天前
    @puzzle1 3 万 2 大洋京东买的,个人感觉不划算这个机子带宽太低了,gemma4 31b 16bf 完全可以使用,就是带宽太低了导致他吐出 2.5token/s

    真的要买,还是要多了解后自己组装吧。mac studio 不敢推荐啊,毕竟这玩意都挺贵的
    puzzle1
        45
    puzzle1  
       5 天前
    好的 谢谢 那就不考虑了 确实 带宽太低了
    qazwsxkevin
        46
    qazwsxkevin  
       3 天前
    @diudiuu 如果拿来做 c++,python 的 vibe code,review;或者给出初高中的数学物理,某题的解题思路;
    就这两类事情,
    DGX Spark 128G 跑个什么模型能基本应付呢?
    如果有合适(或者将就)的模型情况,85%额定容量的上下文打进去,Spark 要多久时间,才有反应开始出 tokens?
    每秒能吐多少 tokens?
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   2933 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 49ms · UTC 07:41 · PVG 15:41 · LAX 00:41 · JFK 03:41
    ♥ Do have faith in what you're doing.