本人第一个正式开源项目,欢迎大家关注!聚焦于推理优化领域,希望能帮助到有相关模型推理加速需求的朋友,或者希望学习这方面知识的朋友。
stable-fast 是一个为 HuggingFace Diffusers 在 NVIDIA GPUs 上的超轻量级推理优化库。
stable-fast
通过利用一些关键技术和特性提供超快的推理优化:
stable-fast
为各种组合的 Conv + Bias + Add + Act
计算模式实现了一系列功能齐全且完全兼容的 CUDNN 卷积融合运算符。stable-fast
实现了一系列使用 fp16
精度的融合 GEMM 运算符,这比 PyTorch 的默认设置更快(以 fp16
读取和写入,以 fp32
计算)。stable-fast
使用 OpenAI 的triton
实现了高度优化的融合的 NHWC GroupNorm + GELU
运算符,消除了内存格式排列运算符的需要。stable-fast
改进了 torch.jit.trace
接口,使其更适合追踪复杂模型。几乎每一部分的 StableDiffusionPipeline
都可以被追踪并转换为 __TorchScript__。它比 torch.compile
更稳定,并且比 torch.compile
的 CPU 开销明显小,并支持 ControlNet 和 __LoRA__。stable-fast
可以将 UNet 结构捕获到 CUDA Graph 格式,当批量大小小时可以减少 CPU 开销。stable-fast
仅仅直接使用 xformers 并使其与 TorchScript 兼容。stable-fast
是专门为 HuggingFace Diffusers 优化的。它在所有库中都实现了最佳性能。stable-fast
作为 PyTorch
的一个插件框架工作。它利用现有的 PyTorch
功能和基础设施,并与其他加速技术兼容,以及流行的微调技术和部署解决方案。框架 | 性能 |
---|---|
Vanilla PyTorch | 23 it/s |
AITemplate | 44 it/s |
TensorRT | 52 it/s |
OneFlow | 55 it/s |
Stable Fast (与 xformers & triton 共同工作) | 60 it/s |
框架 | 性能 |
---|---|
Vanilla PyTorch | 16 it/s |
AITemplate | 31 it/s |
TensorRT | 33 it/s |
OneFlow | 39 it/s |
Stable Fast (与 xformers & triton 共同工作) | 38 it/s |
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.