(论文速读)CWNet:用于微光图像增强的因果小波网络
论文题目CWNet: Causal Wavelet Network for Low-Light Image Enhancement用于微光图像增强的因果小波网络会议ICCV2025摘要传统的微光图像增强(LLie)方法主要关注均匀的亮度调整往往忽略了实例级的语义信息和不同特征的内在特征。为了解决这些局限性我们提出了一种利用小波变换进行因果推理的新型结构--CWNet(因果小波网络)。具体地说我们的方法包括两个关键部分1)受因果关系干预概念的启发我们采用因果推理的观点来揭示微光增强中潜在的因果关系。从全局的角度来看我们使用度量学习策略来确保因果嵌入遵循因果原则将它们与非因果混淆因素分开同时关注因果因素的不变性。在局部层次上我们引入了实例级的裁剪语义损失来精确地维护因果因素的一致性。2)在因果分析的基础上提出了一种基于小波变换的主干网络该网络有效地优化了频率信息的恢复确保了针对小波变换特定属性的精确增强。大量的实验表明CWNet在多个数据集上的性能显著优于当前最先进的方法展示了其在不同场景中的健壮性能。CWNet用因果推理和小波变换重新定义低光照图像增强一、论文指出的问题在深入介绍 CWNet 之前我们先梳理一下这篇论文的出发点——现有方法存在哪些核心局限。1.1 忽视实例级语义信息传统低光照增强LLIE方法的目标几乎全部集中在均匀亮度调整上不论是 gamma 校正、Retinex 理论还是直方图均衡化都把图像视为一个整体来提亮。深度学习方法虽然有所改进但同样缺乏对实例级语义信息的建模。论文通过 ATE平均处理效应热力图分析直观地证明了这一点不同语义区域如天空、建筑、植被对光照退化的敏感程度差异显著但现有方法对所有区域一视同仁。【此处配图图2— ATE 热力图分析。展示 Ground Truth、光照退化样本、颜色异常样本以及对应的 ATE 热力图亮度越高代表该区域对退化越敏感。】1.2 频率域特征利用不充分基于频率域的方法是 LLIE 的重要分支。论文指出当前方法存在两类问题基于傅里叶变换的方法如 FourLLIE、DMFourLLIE擅长捕获全局低频信息、整体提亮但缺乏空间局部性难以保留边缘和纹理等高频细节往往亮了但糊了。基于小波变换的方法如 Wave-Mamba虽然具有优秀的空间局部性能够分离图像内容和噪声但没有充分利用小波频域各子带的独特特性水平、垂直、对角高频分量各有不同的物理意义限制了恢复潜力。1.3 颜色和语义一致性难以保证许多先进方法在提升亮度的同时会出现颜色偏移或语义失真。虽然部分工作如 SKF引入了语义分割网络来辅助增强CLIP 也被一些方法用于语义引导但这些方法只关注全局语义一致性缺乏实例级instance-level的精细一致性保障。二、CWNet 的核心创新针对上述三大问题CWNet 提出了两条主线创新共同构成一个有机整体。2.1 创新一面向 LLIE 的因果推理框架这是本文最具理论深度的贡献。2.1.1 结构因果模型SCM论文首先为 LLIE 任务建立了一个结构因果模型Structural Causal Model, SCM。在这个框架下图像的特征被分为两类因果因子 SCausal Factors语义信息如物体的形状、结构、纹理——这是增强过程中应当保持不变的非因果因子 UNon-Causal Factors亮度异常和颜色偏移——这是增强过程中应当被过滤掉的。【此处配图图1— LLIE 的结构因果模型SCM。展示因果因子 S 与非因果因子 U 的关系以及干预Intervention操作。】2.1.2 有意义且无害的因果干预为了让因果分析具有实际操作性论文设计了两种施加在正常光照图像上的合成退化干预光照退化干预基于物理照明退化模型对正常光图像 I 生成低光版本其中 L 是通过 LIME 生成的光照图控制退化程度是均值为 0、方差在之间的高斯噪声。这种方式在保留语义内容的同时实现了真实的亮度变化。颜色异常干预对正常光图像施加色调偏移、饱和度偏移和 RGB 通道偏移【此处配图图3(a)— 因果引导的度量学习策略。展示潜在空间中 Anchor低光处理图、Positive正常光参考、颜色退化负样本蓝色、光照退化负样本橙色的组织方式以及 Push/Pull 操作。】2.1.3 因果引导的度量学习全局一致性基于上述干预论文设计了因果引导的度量学习策略来实现全局因果一致性锚点Anchor经过网络处理的低光图像正样本Positive与锚点对应的正常光参考图共享相同的因果语义因子负样本对不同场景的正常光图像施加颜色扰动颜色退化负样本或亮度扰动光照退化负样本生成的反事实样本。这种策略刻意排除其他低光图像作为负样本防止模型混淆因果特征和非因果特征迫使模型专注于辨别根本性的语义差异。度量损失定义为其中归一化光照和颜色负样本的贡献。2.1.4 实例级 CLIP 语义损失局部一致性全局度量学习无法处理 ATE 分析揭示的区域级敏感性差异。因此论文引入了实例级 CLIP 语义损失来保障局部一致性使用在 PASCAL-Context 上预训练的 HRNet 对增强结果提取语义实例分割图每个实例子图与可学习的文本提示一起送入 CLIP 编码器计算语义相似度分数用交叉熵损失优化使增强后的每个实例在语义空间中向正常光靠拢【此处配图图3(b)— 实例级 CLIP 语义损失。展示 HRNet 分割 → 实例子图 → CLIP 编解码器 → 相似度分数的完整流程。】2.2 创新二因果小波网络CWNet主干基于 SCM 的分析论文设计了 CWNet 作为实现因果一致性的药方论文用一个有趣的类比低光图像是患者网络主干是药物因果分析是精密的测量仪器。【此处配图图4— CWNet 整体架构图。展示从到的完整流程包括下采样层、HFRB含 FE、HFEB、LFEB和上采样层。】CWNet 采用类 U-Net 结构核心模块是层次特征恢复块Hierarchical Feature Restoration Block, HFRB包含三个子模块特征提取FE、高频增强块HFEB、低频增强块LFEB。2.2.1 特征提取FE对输入低光图像进行小波变换WT分解为四个频率子带其中分别代表低频分量、水平/垂直/对角高频分量。FE 的设计充分考虑了各子带的物理特性高频子带H, V, D用深度可分离卷积DepthConv提取捕获方向性边缘细节低频子带L用WTConv小波卷积处理在不增加参数量的前提下获得更大感受野关键的跨频率补偿低频特征通过方向专用卷积H-Conv、V-Conv、D-Conv分别补充到各高频子带这一设计基于一个重要观察在低光场景下高频细节边缘、纹理的信息大量藏在低频分量中通过低频引导高频提取可以有效补偿缺失信息。2.2.2 高频增强块HFEB论文受State Space ModelSSM/ Mamba启发提出HF-Mamba处理高频子带。现有大多数方法如 Wave-Mamba、RetinexMamba直接沿用 VMamba 的通用 2D-SSM 结构扫描所有方向论文认为这没有充分利用小波高频分量的方向性特性。CWNet 专门设计了H-2D-SSM水平方向扫描处理V-2D-SSM垂直方向扫描处理D-2D-SSM对角方向扫描处理这种扫描方向与小波高频分量方向一致的设计使高频细节的恢复更加精准。2.2.3 低频增强块LFEBHFEB 完成高频增强后先用逆小波变换IWT重建图像重建图像作为 LFEB 的输入。LFEB 由两个残差块构成均采用**快速傅里叶卷积FFC**以获得更大感受野第一个残差块5×5 卷积扩展感受野 SimpleGate 高效激活 1×1 卷积恢复维度第二个残差块1×1 卷积将通道数扩至 4 倍 SimpleGate 1×1 卷积压缩回原始通道数。最终低频分量在高频分量的引导下得到精细化生成增强预测结果 $I_{pre}$。2.3 总损失函数CWNet 的总损失由五部分组成各权重设置为L2 重建损失像素级保真结构相似性损失结构保真VGG 感知损失视觉质量因果度量学习损失全局语义一致性实例级 CLIP 语义损失局部语义一致性。三、实验结果3.1 训练设置框架PyTorch端到端训练架构类 U-Net特征通道数 16低频/高频分支的非对称块配置分别为 [1,3,4,3,1] 和 [1,2,2,2,1]数据增强随机裁剪至 256×256随机水平/垂直翻转和旋转优化器Adam初始学习率训练量iterationsbatch size 8测试数据集LOL-v1、LOL-v2-Real用 LOL-v1 训练的模型测试验证跨数据集泛化、LOL-v2-Syn、LSRW-Huawei。3.2 定量对比【此处配表表1— 在 LOL-v1、LOL-v2-Real、LOL-v2-Syn、LSRW-Huawei 四个数据集上与传统方法、CNN 方法、频率域方法、Transformer 方法、Mamba 方法的 PSNR/SSIM/LPIPS 全面对比以及参数量M和 FLOPsG。】核心数据一览数据集PSNRSSIMLPIPSLOL-v123.60 dB0.84960.0648LOL-v2-Real跨数据集27.39 dB0.9005最优0.0383最优LOL-v2-Syn25.50 dB0.9362最优0.0195最优LSRW-Huawei21.50 dB0.63970.1562最优参数与计算效率仅1.23M 参数11.3G FLOPs在所有深度学习方法中属于最轻量级别。显著优于 MIRNet31.79M 参数785.1G FLOPs和 SNR-Aware39.12M 参数26.35G FLOPs。特别值得注意的是 LOL-v2-Real 的跨数据集结果用 LOL-v1 训练的模型直接在 LOL-v2-Real 上测试取得最优 SSIM0.9005和最低 LPIPS0.0383充分证明了因果推理框架带来的强泛化能力。3.3 定性可视化对比【此处配图图5— LOL-v2-Real 数据集上与 FECNet、FourLLIE、Wave-Mamba、Retinexformer、SKF-SNR、UHDFormer、UHDFour 的视觉对比。】【此处配图图6— LSRW-Huawei 数据集上与 FECNet、FourLLIE、Wave-Mamba、Retinexformer、SKF-SNR、UHDFormer、DMFourLLIE 的视觉对比。】在视觉效果上对比方法普遍存在以下问题FECNet、FourLLIE、Wave-Mamba颜色偏差和噪声Retinexformer、SKF-SNR提亮不足UHDFormer、UHDFour表现较好但仍有噪声伪影缺乏平滑性。CWNet 产生的结果更清晰、自然、平滑颜色和语义更为一致。四、消融实验4.1 组件消除实验【表2上半部分— 逐个去除因果推理机制、FE、HFEB、LFEB 在 LSRW-Huawei 上的性能变化。】各组件对 PSNR 的贡献去除组件PSNR下降幅度完整 CWNet21.53—去除因果推理20.87-0.66 dB最大去除 FE20.98-0.55 dB去除 HFEB20.58-0.95 dB去除 LFEB20.41-1.12 dB影响最大LFEB 的去除导致最大幅度的性能下降PSNR 降至 20.41 dB说明低频处理在整个双分支架构中扮演着最关键的角色。4.2 组件替换实验【表2下半部分— 用标准卷积替换 WTConv/FFTConv用 VMamba 替换 HF-Mamba用全局特征替换语义图的性能对比。】替换方案PSNR说明WTConv → 标准卷积21.42频率域处理有效FFTConv → 标准卷积21.36全局感受野有效HF-Mamba → VMamba 2D-SSM21.20方向对齐扫描有效语义图 → 全局特征21.48实例级一致性有效4.3 损失权重分析【此处配表表3— 系统变化各损失权重的消融实验含 6 种配置 A~F 的 PSNR/SSIM/LPIPS 对比。】基线配置取得最优 PSNR21.53和次优 SSIM0.6423。实验表明增大CLIP 语义损失权重至 0.05会导致 PSNR 明显下降至 20.89说明过度强调语义约束会损害像素级重建质量的权重对最终结果敏感0.01 是最优选择。五、局限性与失败案例【此处配图图7— 多退化场景下的失败案例。展示同时存在模糊或雾霾时CWNet 与 Retinexformer、RetinexMamba、Wave-Mamba、UHDFormer 的对比。】论文坦诚地指出当图像同时面临多种退化如低光 模糊、低光 雾霾时CWNet 虽然在亮度和颜色保持上优于对比方法但整体恢复质量不理想。这为后续研究指明了方向如何在多退化条件下实现更有效的低光图像恢复。六、因果与小波的哲学连接【此处配图图8— 小波结构与因果推理的类比图。因果推理 ≈ 精密测量仪器低光图像 ≈ 患者网络主干 ≈ 药物。】论文用一个生动的类比来解释 CWNet 的可解释性低光图像是需要治疗的患者因果推理机制是精密的测量仪器确保治疗精准定位到问题所在分离因果因子和非因果因子小波网络主干是药物其架构设计直接决定治疗效果——低频增强负责颜色和亮度一致性高频 Mamba 一致性扫描负责细节建模和结构一致性。七、总结与思考CWNet 的核心贡献可以归结为一句话用因果推理想清楚了该做什么再用小波网络精准地做到。从研究方法论的角度看这篇论文有几点值得特别关注理论驱动的框架设计引入 SCM 和 ATE 分析不仅仅是方法的包装而是真正指导了网络架构为什么需要实例级而非全局语义损失和训练策略为什么要构造特定类型的负样本的设计。轻量与高性能的平衡1.23M 参数和 11.3G FLOPs 的代价换来了多数据集 SOTA这得益于小波变换天然的高效性下采样减少空间维度和 Mamba 相比 Transformer 的线性计算复杂度。跨数据集泛化的意义在 LOL-v2-Real 上的跨数据集测试用 LOL-v1 训练取得最优 SSIM 和 LPIPS这是对因果推理框架分离不变因果特征这一核心目标最直接的验证。局限性的坦诚论文没有回避多退化场景下的失败案例这种学术诚实值得肯定也为后续研究留下了清晰的开放问题。如果你对低光照图像增强、因果推理在视觉任务中的应用或者 Mamba/SSM 模型有兴趣欢迎进一步探讨。