我现在用的是, https://huggingface.co/google/madlad400-3b-mt 一个量化之后的模型, A5000/RTX4090 可以跑到 90token/s 单任务的速度
例子代码来自 https://github.com/huggingface/candle/blob/main/candle-examples/examples/quantized-t5/main.rs
有没有速度比这个再快点的模型(要尽可能支持主流语言), 或者可以优化执行速度(付费支持, 如果能达到单任务 200~300token/s A5000 的卡, 200$起).
tg 可以直接联系我 @chino23333 微信的话您留我联系您 (国内下午 4 点后在线
1
csulyb 228 天前
我也想知道
|