向量量化变分自编码器 (VQ-VAE)

向量量化变分自编码器（VQ-VAE）是 VAE 的一个重要变体，它使用离散的潜在表示而不是连续的潜在空间。VQ-VAE 通过将连续向量映射到离散的码本（codebook）来实现这一点，这使得它特别适合处理离散数据（如文本、音频等）和需要精确重建的场景。

架构

VQ-VAE 的主要组件包括：

编码器网络：将输入数据映射到连续向量空间
向量量化层：将连续向量映射到最近的码本条目
解码器网络：从量化后的向量重建输入数据
码本：包含 K 个可学习的向量，用于量化

数学框架

向量量化过程

给定编码器输出 ( z_e(x) )，VQ-VAE 通过以下步骤进行量化：

计算与码本中所有向量的距离
选择最近的码本条目
使用选中的码本条目进行重建

量化过程可以表示为：

[ z_q(x) = \text{VQ}(z_e(x)) = e_k, \quad k = \arg\min_j |z_e(x) - e_j|_2 ]

训练目标

VQ-VAE 的训练目标包括：

重建损失：确保解码器能够准确重建输入
码本损失：更新码本向量以更好地表示输入
承诺损失：防止编码器输出在码本条目之间频繁切换

总损失函数为：

[ \mathcal{L}{\text{VQ-VAE}} = \mathcal{L}{\text{recon}} + |\text{sg}[z_e(x)] - e_k|_2^2 + |\text{sg}[e_k] - z_e(x)|_2^2 ]

其中 (\text{sg}) 表示停止梯度操作。

变体

VQ-VAE-2

VQ-VAE-2 通过引入分层结构来增强生成能力，使用多个 VQ 层处理不同尺度的特征。

VQ-GAN

VQ-GAN 将 VQ-VAE 与对抗训练相结合，通过判别器来提升生成质量。

优势

离散表示：更适合处理离散数据
精确重建：可以产生更清晰的输出
自回归生成：支持自回归式的生成过程
多尺度处理：可以处理不同尺度的特征

局限性

码本大小限制：码本大小需要预先设定
计算开销：量化过程需要计算与所有码本条目的距离
训练稳定性：需要仔细平衡各个损失项

应用

图像生成：高质量图像生成
音频处理：语音合成和音频压缩
文本生成：基于离散 token 的文本生成
视频生成：多帧视频生成

参考文献

van den Oord, A., et al. (2017). Neural discrete representation learning.
Razavi, A., et al. (2019). Generating diverse high-fidelity images with VQ-VAE-2.
Esser, P., et al. (2021). Taming transformers for high-resolution image synthesis.