本人第一个正式开源项目,欢迎大家关注!聚焦于推理优化领域,希望能帮助到有相关模型推理加速需求的朋友,或者希望学习这方面知识的朋友。
stable-fast 是一个为 HuggingFace Diffusers 在 NVIDIA GPUs 上的超轻量级推理优化库。
stable-fast
通过利用一些关键技术和特性提供超快的推理优化:
stable-fast
为各种组合的 Conv + Bias + Add + Act
计算模式实现了一系列功能齐全且完全兼容的 CUDNN 卷积融合运算符。stable-fast
实现了一系列使用 fp16
精度的融合 GEMM 运算符,这比 PyTorch 的默认设置更快(以 fp16
读取和写入,以 fp32
计算)。stable-fast
使用 OpenAI 的triton
实现了高度优化的融合的 NHWC GroupNorm + GELU
运算符,消除了内存格式排列运算符的需要。stable-fast
改进了 torch.jit.trace
接口,使其更适合追踪复杂模型。几乎每一部分的 StableDiffusionPipeline
都可以被追踪并转换为 __TorchScript__。它比 torch.compile
更稳定,并且比 torch.compile
的 CPU 开销明显小,并支持 ControlNet 和 __LoRA__。stable-fast
可以将 UNet 结构捕获到 CUDA Graph 格式,当批量大小小时可以减少 CPU 开销。stable-fast
仅仅直接使用 xformers 并使其与 TorchScript 兼容。stable-fast
是专门为 HuggingFace Diffusers 优化的。它在所有库中都实现了最佳性能。stable-fast
作为 PyTorch
的一个插件框架工作。它利用现有的 PyTorch
功能和基础设施,并与其他加速技术兼容,以及流行的微调技术和部署解决方案。框架 | 性能 |
---|---|
Vanilla PyTorch | 23 it/s |
AITemplate | 44 it/s |
TensorRT | 52 it/s |
OneFlow | 55 it/s |
Stable Fast (与 xformers & triton 共同工作) | 60 it/s |
框架 | 性能 |
---|---|
Vanilla PyTorch | 16 it/s |
AITemplate | 31 it/s |
TensorRT | 33 it/s |
OneFlow | 39 it/s |
Stable Fast (与 xformers & triton 共同工作) | 38 it/s |
1
eleganceoo 2023-10-20 09:19:43 +08:00
虽然看不懂,感觉挺厉害的
|
2
nethard OP @eleganceoo 好像国内关注这个的比较少😂
|
3
DanielNg23 2023-10-27 21:25:31 +08:00
大佬收下我的膝盖!要不要来我们这边打一下黑客马拉松💪,有国内 LLM 厂商的支持,线上/线下均可参加😊,来线下能提供 7 天住宿顺便来大理到处玩玩⛰️🏄🎾🥏,最高有 AWS 提供的 2.5 万美金算力支持💰💰💰 https://mp.weixin.qq.com/s/MTqByjk8j_ekAMfcxgtP1g
|