爱意满满的作品展示区。
ytgui

Qwen3.5-Sonnet-9B: 专为 Coding Agent 蒸馏的 9B 小模型

  •  
  •   ytgui · May 16 · 1874 views
    This topic created in 46 days ago, the information mentioned may be changed or developed.

    最近炼了一个小模型放出来给大家玩,专门针对 OpenCode (还有 Claude Code )做了蒸馏。

    FP8 量化后权重大概 13GB ,单张 24GB 显卡用 vLLM 就能跑 200K 上下文。

    核心目标:claude 的风格,降低 tool call 的失败率,让 agent 能跑更长的连续任务。

    蹲一下:Bug 反馈、奇怪的 trace 、改进建议都欢迎 🙏

    🤗 HF: Qwen3.5-Sonnet-9B

    Supplement 1  ·  May 18

    看起来大家的 Mac 基本都是 16GB,很难跑起来这个模型。

    虽然我很不喜欢低精度量化,但是做了 GGUF 版本 (Q8_0, Q4_K_M, Q4_K_S):

    Qwen3.5-Sonnet-9B-GGUF

    祝大家玩的愉快

    6 replies    2026-05-17 11:12:30 +08:00
    zhang666
        1
    zhang666  
       May 16 via iPhone
    22G 可以用吗?
    kuhung
        2
    kuhung  
       May 16
    好奇有做效果测试和对比吗 另外有考虑提供更近一步的量化和苹果环境的权重嘛
    ytgui
        3
    ytgui  
    OP
       May 16   ❤️ 1
    @zhang666 试了下,19.5GB 显存可以跑 100K 的 context 长度
    ytgui
        4
    ytgui  
    OP
       May 16
    @kuhung 还在跑,ifeval (指令跟随) 和 gpqa_diamond (通用知识)没有弱化。我提供的权重是 hugging face 的标准 fp8 ,不是很熟悉苹果权重,可能会做~
    tootfsg
        5
    tootfsg  
       May 16 via Android
    好奇,这种和 gemma4 26b a3b 的 iq4xs 量化这种对比哪个好,尺寸可以说一样大。
    ytgui
        6
    ytgui  
    OP
       May 17
    @tootfsg 跑分的话确实 30Bx4bit 高于 15Bx8bit 。但是实际体验其实不好,高峰期感觉到的那种模型降智,基本就是低精度量化版本的锅
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   3122 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 41ms · UTC 14:31 · PVG 22:31 · LAX 07:31 · JFK 10:31
    ♥ Do have faith in what you're doing.