V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
bladeterror372
V2EX  ›  分享发现

分享个 TurboQuant 的小工具站

  •  
  •   bladeterror372 · 3 月 31 日 · 546 次点击

    做了个小工具站,感兴趣的朋友可以看看:turbo-quant.com

    起因是看到 Google Research 三月底发了 TurboQuant 这篇论文,讲 KV cache 压缩的,3-bit 量化能省 6 倍显存。但原论文读起来比较硬核,网上的中文资料要么是机翻 要么就是把"3-bit 零损失"这个标题党复读一遍。

    所以借助 AI 花了点时间整了这个站,主要几个东西:

    • 算法拆解:PolarQuant + QJL 两阶段到底在干嘛,用人话讲清楚
    • 显存计算器:选个模型( Llama 3.1 、Mistral 这些),填上下文长度,直接算 KV cache 吃多少显存,对比压缩前后
    • TurboQuant vs KIVI 对比:两个方案的差异,不是那种"A 好 B 差"的水文,是把论文里的定位、方法、benchmark 放一起让你自己判断 欢迎访问看看,有问题或者建议随时反馈
    目前尚无回复
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   2719 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 07:19 · PVG 15:19 · LAX 00:19 · JFK 03:19
    ♥ Do have faith in what you're doing.