扩散模型骨干网络设计

扩散模型的性能在很大程度上取决于其骨干网络的设计。这些骨干网络负责学习噪声预测或去噪过程,对生成质量至关重要。

U-Net架构

U-Net是扩散模型中最常用的骨干网络,其特点包括:

  • 对称编码器-解码器结构:通过下采样逐步减小特征图尺寸,然后通过上采样恢复尺寸
  • 跳跃连接:连接编码器和解码器对应层,保留细节信息
  • 残差块:改进的ResNet块,提高训练稳定性和模型性能
  • 自注意力层:在某些分辨率层中引入,捕获远程依赖关系

Mamba架构

Mamba是一种基于RNN的骨干网络,其特点包括:

  • 时间步嵌入:将去噪步骤转换为特征表示,通常使用正弦位置编码
  • 条件嵌入

其他常见骨干网络

Transformer架构

  • Diffusion Transformer (DiT):使用Transformer块替代卷积层
  • U-ViT:结合U-Net的多尺度特性和Vision Transformer的注意力机制
  • 优势:更好地捕获全局依赖关系,对大尺寸图像效果更佳

高效改进

  • Progressive U-Net:渐进式的U-Net变体,针对不同噪声级别使用不同复杂度的网络
  • 轻量级设计:使用分组卷积、深度可分离卷积等减少参数量
  • 知识蒸馏:从大型模型蒸馏知识到小型模型,平衡效率和质量

时间步和条件嵌入

  • 时间步嵌入:将去噪步骤转换为特征表示,通常使用正弦位置编码
  • 条件嵌入
    • 类别条件:使用类别嵌入或one-hot向量
    • 文本条件:使用CLIP或T5等语言模型的文本编码
    • 跨模态条件:结合多种模态输入的特征

扩散模型骨干设计中的关键考虑因素

  1. 感受野大小:更大的感受野有助于捕获全局结构
  2. 参数效率:优化参数数量和计算复杂度
  3. 多分辨率处理:有效处理不同尺度的特征
  4. 注意力机制:在合适的层级高效应用注意力机制
  5. 可扩展性:能够适应不同尺寸的输入和复杂度要求

最新研究方向

  • 动态架构:根据噪声水平动态调整网络结构
  • 混合架构:结合CNN和Transformer的优点
  • 一致性架构:专为一致性模型设计的特殊骨干网络
  • 量化感知设计:考虑到部署时量化需求的骨干网络设计

参考文献