论文题目PFGM: Unlocking the Potential of Physics-Inspired Generative ModelsPFGM释放受物理启发的生成模型的潜力会议ICML2023摘要我们介绍了一类新的受物理启发的生成模型称为PFGM它统一了扩散模型和泊松流动生成模型(PFGM)。这些模型通过在ND维空间中嵌入路径来实现N维数据的生成轨迹同时仍然用D个附加变量的简单标量范数来控制级数。当D1时新模型简化为PFGM模型当D→∞时新模型简化为扩散模型。选择D的灵活性允许我们在稳健性和刚性之间进行权衡因为增加D会导致数据和附加变量规范之间更集中的耦合。我们摒弃了PFGM中使用的有偏大批量场目标而是提供了一个类似于扩散模型的基于扰动的无偏目标。为了探索D的不同选择我们提供了一种直接对齐方法用于将经过良好调整的超参数从扩散模型(D→∞)转换到任意有限的D值。实验表明在CIFAR-10/FFHQ×数据集上具有有限D的模型可以优于已有的扩散模型当D2048/128时FID得分为1.91/2.43。在类别条件设置中D2048在CIFAR-10上得出当前最先进的FID为1.74。此外我们还证明了D越小的模型对建模误差的稳健性越好。代码可在https://github.com/Newbeeer/pfgmpp上获得PFGM用一个参数D统一扩散模型与泊松流生成模型一、研究背景两类物理启发的生成模型近年来受物理学启发的深度生成模型取得了令人瞩目的进展其中两个代表性方向是扩散模型Diffusion Models受热力学启发通过逐步去噪生成样本以 EDMKarras et al., 2022为代表在图像生成上取得了极高质量但对估计误差极为敏感鲁棒性较差。泊松流生成模型PFGM受静电学启发将N维数据视为电荷在N1维增广空间中学习电场线方向沿电场线轨迹生成新样本对误差更鲁棒——但仅在1维增广空间中定义训练时需要大批量样本近似积分有偏且与条件生成不兼容。这两类模型此前被视为相互独立的方法缺乏理论联系也无法系统地在两者之间进行性能权衡。本文的核心问题能否构建一个统一框架将PFGM和扩散模型纳入同一体系并从中找到性能更优的中间点二、核心思想把增广维度D变成一个连续旋钮【此处配图Fig 1 PFGM统一框架概览图D轴从PFGM到扩散模型的谱】PFGM 的核心洞察极为简洁将PFGM中固定的1维增广空间推广为D维增广空间D成为一个可调超参数。当 D1 时退化为原始 PFGM当时等价于扩散模型中间的有限D值如D128、D2048则是两者之间的甜蜜点这个看似简单的推广实际上蕴含了深刻的物理意义和数学结构。三、PFGM 的数学框架3.1 高维增广空间中的电场将N维数据视为电荷在ND维增广空间中定义电场关键的对称性简化增广变量 z 的D个分量在 D维柱面上具有 SO(D) 旋转对称性因此只需追踪增广变量的标量范数将高维问题降维为标量ODE这个ODE定义了从先验分布大处到数据分布r0 处的双射即生成过程。3.2 基于扰动核的无偏训练目标原始PFGM需要大批量样本来近似电场积分有偏本文设计了一个扰动核从而将训练目标转化为类似去噪得分匹配的无偏平方损失这一目标的三大优势无需大批量近似计算高效最小化器是电场方向的无偏估计天然支持条件生成的配对样本训练。3.3 超参数对齐从扩散模型零样本迁移到任意D扩散模型的超参数、等已被前人大量调优。本文证明了相变对齐公式在此公式下不同D的中间分布的相保持近似不变从而可以直接将 EDM/DDPM 的超参数迁移到任意有限D——只需令。【此处配图Fig 3 相对齐前后不同D的TVD曲线对比图】3.4 D→∞ 等价扩散模型定理4.1本文严格证明当固定时PFGM 的电场方向收敛到扩散模型的得分函数方向且两者的采样ODE轨迹完全一致。其根本原因是扰动核在时收敛到高斯核四、D 控制鲁棒性与刚性的权衡【此处配图Fig 4 (a)(b)(c) 不同D下的电场差异、半径分布方差、训练样本范数密度图】D 的选择决定了模型在两个对立属性之间的平衡鲁棒性Robustness指模型对估计误差的不敏感程度。小D → 训练样本范数分布宽泛重尾采样轨迹偏离时不会灾难性崩溃大DD→∞→ 训练样本范数高度集中对偏差极为敏感刚性Rigidity指训练是否容易收敛。大D → 扰动核接近高斯分布集中学习目标稳定清晰小D → 重尾输入使有限容量的神经网络难以全面覆盖两者此消彼长既不是D1也不是D→∞提供最优平衡中间存在一个甜蜜点。五、实验结果5.1 图像生成质量【此处配表Table 1 CIFAR-10 FID和NFE对比表】【此处配表Table 2 FFHQ 64×64 FID对比表】主要发现中间D超越扩散模型在 CIFAR-10 无条件生成中D2048 取得 FID1.91D128 取得 FID1.92均优于 EDMD→∞FID1.98均使用 35 次函数估计NFE。在类条件生成中D2048 以 FID1.74刷新 CIFAR-10 SOTA超过 EDM 的 1.79。FFHQ 64×64D128 取得 FID2.43D2048 取得 2.46均优于 EDM 的 2.53。甜蜜点存在D64/128/2048 均优于 D→∞而极小的 D如D1因重尾问题性能下降确认了中间甜蜜点的存在。理论验证D3072000 ≫ N3072 时模型性能与扩散模型完全一致FID均为1.90验证了D→∞等价性定理。5.2 鲁棒性对比【此处配图Fig 5 FID vs 噪声注入系数α 和 FID vs NFE 曲线图】实验在三种误差源下验证鲁棒性1控制噪声注入在每个ODE步骤注入噪声。当时D64/128 仍能生成清晰图像而扩散模型D→∞FID 从 1.98 崩溃到92.41。2后训练量化对卷积权重进行量化压缩不重训练。【此处配表Table 3 不同量化比特宽度下的FID对比表】在 5-bit 量化下D64 的 FID 为 28.50而 D→∞ 为50.09有限 D 的优势随量化强度增加而扩大。3减少采样步数增大离散化误差减少 NFE即增大步长时D128 与扩散模型的 FID 差距逐渐扩大显示出更强的抗离散化误差能力。【此处配图Fig 8 CIFAR-10上不同D和不同α的生成图像对比直观展示鲁棒性差异】【此处配图Fig 9 FFHQ 64×64上D128 vs EDM生成图像对比】六、PFGM 与 EDM 的训练/采样算法对比PFGM 对 EDM 的改动极为轻量仅改变训练时的扰动噪声采样方式采样阶段的 for 循环完全不变训练差异EDM加高斯噪声PFGM加非高斯噪声从扰动核采样半径从均匀球面分布采样方向其中采样差异EDM初始点PFGM初始点从处的超柱面采样for 循环与 EDM 完全相同这意味着已有的 EDM 代码只需修改约 3 行就能变成 PFGM工程实现极为简洁。七、结论与展望PFGM 的核心贡献是用一个参数 D 将 PFGM 和扩散模型统一在同一框架内D1 → PFGM最鲁棒训练最难D→∞ → 扩散模型训练最容易最脆弱中间 D如 128、2048→ 甜蜜点在 CIFAR-10/FFHQ 上超越扩散模型 SOTA同时保持更强鲁棒性更深远的意义在于PFGM 提供了一个可解释的旋钮让研究者可以根据任务需求计算资源、网络规模、对误差的容忍度灵活选择 D而不必在 PFGM 和扩散模型之间二选一。未来方向为 PFGM 开发随机采样器类比扩散模型的 SDE在生物学数据等新兴领域发挥更大优势结合网络剪枝和低比特训练进一步压缩小 D 模型。代码开源GitHub - Newbeeer/pfgmpp: Code for ICML 2023 paper, PFGM: Unlocking the Potential of Physics-Inspired Generative Models · GitHub