扩散模型骨干网络设计
扩散模型的性能在很大程度上取决于其骨干网络的设计。这些骨干网络负责学习噪声预测或去噪过程,对生成质量至关重要。
U-Net架构
U-Net是扩散模型中最常用的骨干网络,其特点包括:
- 对称编码器-解码器结构:通过下采样逐步减小特征图尺寸,然后通过上采样恢复尺寸
- 跳跃连接:连接编码器和解码器对应层,保留细节信息
- 残差块:改进的ResNet块,提高训练稳定性和模型性能
- 自注意力层:在某些分辨率层中引入,捕获远程依赖关系
Mamba架构
Mamba是一种基于RNN的骨干网络,其特点包括:
- 时间步嵌入:将去噪步骤转换为特征表示,通常使用正弦位置编码
- 条件嵌入:
其他常见骨干网络
Transformer架构
- Diffusion Transformer (DiT):使用Transformer块替代卷积层
- U-ViT:结合U-Net的多尺度特性和Vision Transformer的注意力机制
- 优势:更好地捕获全局依赖关系,对大尺寸图像效果更佳
高效改进
- Progressive U-Net:渐进式的U-Net变体,针对不同噪声级别使用不同复杂度的网络
- 轻量级设计:使用分组卷积、深度可分离卷积等减少参数量
- 知识蒸馏:从大型模型蒸馏知识到小型模型,平衡效率和质量
时间步和条件嵌入
- 时间步嵌入:将去噪步骤转换为特征表示,通常使用正弦位置编码
- 条件嵌入:
- 类别条件:使用类别嵌入或one-hot向量
- 文本条件:使用CLIP或T5等语言模型的文本编码
- 跨模态条件:结合多种模态输入的特征
扩散模型骨干设计中的关键考虑因素
- 感受野大小:更大的感受野有助于捕获全局结构
- 参数效率:优化参数数量和计算复杂度
- 多分辨率处理:有效处理不同尺度的特征
- 注意力机制:在合适的层级高效应用注意力机制
- 可扩展性:能够适应不同尺寸的输入和复杂度要求
最新研究方向
- 动态架构:根据噪声水平动态调整网络结构
- 混合架构:结合CNN和Transformer的优点
- 一致性架构:专为一致性模型设计的特殊骨干网络
- 量化感知设计:考虑到部署时量化需求的骨干网络设计