Fdyo

Qwen3.6 MTP GGUF 发布:本地推理 1.4-2.2 倍加速

  •  
  •   Fdyo · 1 day ago · 308 views

    Unsloth 团队为 Qwen3.6 发布了 MTP ( Multi Token Prediction ) GGUF 量化版本,可 Qwen3.6 的本地推理速度提升 1.4-2.2 倍,精度无任何损失。

    Qwen3.6 MTP GGUF

    除 Qwen3.6 外,Unsloth 这次还回溯发布了 Qwen3.5 系列的 MTP GGUF ,覆盖 0.8B 、2B 、4B 、9B 、27B 、35B-A3B 、122B-A10B 、397B-A17B 全家族。这意味着已经在用 Qwen3.5 系列做本地推理的开发者可以直接迁到 MTP 版本而不换模型。

    原文:Qwen3.6 MTP GGUF 发布:本地推理 1.4-2.2 倍加速,精度无损

    1 replies    2026-05-19 11:48:06 +08:00
    hutng
        1
    hutng  
       1 day ago
    之前就开了,我看 Unsloth 文档前几天还是 --spec-draft-n-max 2 ,今天就改成 6 了

    刚测了一下,我的配置,6 还不如 2 快了。。
    应该是配置不一样,性能也不一样,需要自己测试。
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   3058 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 30ms · UTC 14:32 · PVG 22:32 · LAX 07:32 · JFK 10:32
    ♥ Do have faith in what you're doing.