ICLR 2026 | 基于后验采样的图像恢复方法LearnIR:人脸去阴影、去雾
作者 vivo BlueImage Lab本文入选 ICLR 2026ICLRInternational Conference on Learning Representations是聚焦机器学习与深度学习等领域的国际顶级学术会议致力于推动人工智能理论与方法的前沿研究与创新发展。ICLR 2026 19525篇投稿接收率约27.4%。论文主页https://openreview.net/pdf?idaAb26aqU1E摘要真实场景图像复原因复杂异质退化而极具挑战现有扩散模型方法存在保真度不足、误差累积或依赖未知前向算子等问题。本文提出LearnIR通过训练轻量网络预测梯度校正分布实现无需前向算子的扩散后验采样校正并设计动态分辨率模块进一步抑制噪声。在多个图像复原基准上LearnIR的PSNR、SSIM、LPIPS均达到先进水平。对应的论文已被 ICLR2026 接收一、论文主要是针对什么问题本文主要针对真实世界图像复原问题即从受到复杂退化如雾霾、阴影、噪声、运动模糊等影响的图像中恢复出高质量、高保真的清晰图像。问题出现的背景真实世界中的成像环境往往引入多种异质退化且这些退化常常同时出现并相互交织使得图像复原成为一个经典的病态逆问题。现有基于扩散模型的图像复原方法存在三类核心限制条件生成方法难以在忠实复原和真实生成之间取得平衡基于反演的方法将退化图像反演到潜空间的过程中会累积误差导致与输入明显偏差且效率低下后验采样方法如DPS需要精确已知的前向测量算子 A例如高斯模糊核、随机掩码等但在真实场景中该算子通常不可获得严重限制了实际应用。二、核心贡献与效果概览2.1 核心贡献1. 可学习的扩散后验采样框架LearnIR提出通过训练轻量级网络直接预测后验采样中的梯度校正项分布无需已知前向退化算子即可实现扩散后验采样校正从根本上突破了传统DPS方法的关键限制。2. 扩散后验采样校正DPSC利用高斯分布的封闭性证明了前向过程真实后验与模型预测反向分布之间的偏差服从高斯分布进而可以通过训练一个轻量网络来拟合该偏差的均值作为即插即用的正则化项校正扩散轨迹消除采样过程中的结构偏差和色偏等不一致性。3. 动态分辨率模块DRM设计了时间依赖的动态分辨率调度策略在像素空间中实现从粗到细的采样过程——高噪声阶段使用低分辨率捕获全局上下文低噪声阶段恢复高分辨率精修纹理细节无需预训练VAE即可简化端到端流水线并降低计算开销。2.2 关键理论论文的核心定理Theorem 1证明在DRM潜空间中DPS梯度正比于模型预测的反向分布与真实前向后验之间的偏差利用高斯分布的封闭性该偏差可以建模为其中均值 μ 和方差 σ² 均有解析闭式解。通过训练网络 μ_θ 去拟合解析均值 μ可以有效地引导采样轨迹与真实后验对齐。2.3 效果预览本文公式推导比较多想了解细节的同学可以直接看原文附录推导过程先预览下效果吧第一排是原始图第二排是对应处理后的图在去雾和去阴影数据集上和一些其他模型的对比效果三、论文提出的方法是什么LearnIR 框架由两个互补模块组成3.1 动态分辨率模块DRM定义时间依赖的缩放因子 s(t)在不同扩散时间步将图像映射到不同分辨率的潜空间早期阶段t≥T/2对图像进行大尺度下采样SSdown聚焦全局结构建模后期阶段t≤T/2恢复原始分辨率SSup精修高频纹理细节。使用高效的非可训练双线性插值实现无需预训练VAE显著降低计算成本。3.2 扩散后验采样校正DPSC在标准去噪损失之外引入一致性正则化项去噪损失约束噪声预测网络 ε_θ 准确估计残差噪声一致性损失约束校正网络 μ_θ 拟合前向-反向后验偏差的解析均值。总损失函数推理时DPSC 作为即插即用模块在每个采样步骤通过 μ_θ 预测梯度校正自适应修正扩散轨迹。3.3 训练与推理训练采用两阶段策略Stage 1固定分辨率训练DRM关闭聚焦学习DPSC梯度校正Stage 2开启DRM以更小学习率在动态分辨率下微调。推理基于残差扩散的平滑等效变换确定稳定采样起点 T仅需5步采样即可生成高质量结果。四、实验结果展示4.1 数据集与设置实验在5个数据集上进行ISTD阴影去除、O-HAZE/HazyDet/REVIDE去雾以及新构建的FaceShadow数据集人脸阴影去除含30,000对合成数据 1,000对真实数据。所有评估在单张A100 GPU上完成采样步数仅为5步。4.2 阴影去除ISTD数据集LearnIR在mask-based方法中取得最佳表现与mask-free最优方法相比也具有竞争力。4.3 去雾任务O-HAZE / HazyDet / REVIDELearnIR在三个去雾数据集上全面超越所有对比方法在O-HAZE上PSNR提升2.27 dB在HazyDet上PSNR提升1.65 dB且SSIM提升0.124。4.4 人脸阴影去除自建的FaceShadow数据集LearnIR在合成和真实人脸阴影数据上均大幅领先PSNR分别提升 2.44 dB 和 1.71 dB。4.5 消融实验消融实验验证了DPSC和DRM两个模块的有效性去除DPSC导致PSNR下降4.4 dB说明后验采样校正对消除轨迹不一致至关重要去除DRM导致PSNR下降1.27 dB验证了动态分辨率策略对全局结构保持的重要性同时去除两者性能大幅下降至22.86 dB证明两个模块协同配合才能达到最优效果。4.6 计算效率DRM使用非可训练的双线性插值计算开销几乎为零。完整模型仅需5步采样总推理时间约1.6秒。vivo BlueImage Lab蓝图实验室主要负责移动影像算法创新包括图像/视频处理、图像/视频交互、图像/视频增强、多模态理解大模型等方面的技术前沿探索。致力于不断提升vivo移动影像的算法能力使用户能够拍摄出更加清晰、美观的照片和视频。同时积极探索增强现实、具身智能等新兴技术领域的应用努力为用户提供更加丰富和便捷的影像体验。欢迎持续关注 vivo 影像技术获取前沿技术创新经验分享与热招岗位信息。