清华提出新方法:无监督低光图像增强与去噪框架

清华提出一种无监督低光图像增强与去噪框架,有效解决真实场景中低光照图像的复杂退化问题,提升图像质量。

原文标题:清华团队新作:无监督低光图像增强与去噪,效果惊艳!

原文作者:数据派THU

冷月清谈:

清华大学的研究团队提出了一种新颖的无监督低光图像增强与去噪框架,专门针对真实场景中低光照图像的复杂问题。该框架基于物理成像原理和Retinex理论,通过生成具有不同光照和噪声水平的配对子图像进行训练,从而有效解决局部过曝光、低亮度、噪声和不均匀光照等问题。核心创新点在于利用离散余弦变换(DCT)对物理先验进行建模,捕捉复合退化,并设计全局学习型编码器提取隐式退化表示。同时,开发了一种混合先验注意变压器网络,用于将退化特征整合到反射图重建中,并自适应地增强光照。实验结果表明,该方法在图像去噪、增强和颜色保真度方面均表现出色,尤其是在保持颜色真实性和增强图像细节方面具有明显优势。通过在LOLv1和LOLv2-Real数据集上的测试,该方法在PSNR、SSIM和LPIPS等指标上与其他先进方法相比具有竞争力。

怜星夜思:

1、文章中提到的Retinex理论在图像增强中扮演了什么角色?除了Retinex理论,还有哪些常用的图像增强理论或方法?
2、文章提到该方法是“无监督”的,这意味着什么?相比于有监督学习方法,无监督学习在低光图像增强领域有什么优势和劣势?
3、文章中使用了离散余弦变换(DCT)对物理先验进行建模,这有什么作用?为什么选择DCT,而不是其他的变换方法,比如傅里叶变换?

原文内容

源:学姐带你玩AI
本文共1100字,建议阅读5分钟
本文提出了一种适用于真实场景的零参考联合去噪与低光照增强框架。


论文题目:INTERPRETABLE UNSUPERVISED JOINT DENOISING AND ENHANCEMENT FOR REAL-WORLD LOW-LIGHT SCENARIOS

论文地址:https://arxiv.org/pdf/2503.14535

代码地址:https://github.com/huaqlili/unsupervised-light-enhance-ICLR2025



创新点


  • 提出了一种适用于真实场景的零参考联合去噪与低光照增强框架。该框架基于物理成像原理和Retinex理论,通过生成具有不同光照和噪声水平的配对子图像进行训练,有效解决了真实世界低光照图像中复杂的退化问题,如局部过曝光、低亮度、噪声和不均匀光照等。

  • 利用离散余弦变换(DCT)对物理先验进行建模,捕捉复杂的复合退化。通过设计全局学习型编码器从先验中提取隐式退化表示,在频域内分离复杂退化特征,避免了以往方法中按顺序处理特征的局限性。

  • 开发了一种新的混合先验注意变压器网络,将退化特征整合到反射图重建中,同时自适应地增强光照。这种网络设计有助于更好地处理多种退化模式,提高融合图像的质量和细节保留。


方法


本文提出了一种适用于真实场景的零参考联合去噪与低光照增强框架。该框架基于物理成像原理和Retinex理论,通过生成具有不同光照和噪声水平的配对子图像进行训练。方法首先利用离散余弦变换(DCT)对物理先验进行建模,捕捉复杂的复合退化,并设计全局学习型编码器从先验中提取隐式退化表示。接着,开发了混合先验注意变压器网络,将退化特征整合到反射图重建中,同时自适应地增强光照。


与其他方法在SIDD数据集上的结果对比



本图展示了本文方法与其他先进方法(如Liang et al. (2023)、Ma et al. (2022))在SIDD数据集上的去噪、增强和颜色保真度方面的对比结果。图中显示了不同方法处理后的图像效果,突出了本文方法在保持颜色真实性和增强图像细节方面的优势。


整体框架



本图详细展示了本文方法的处理流程。首先,通过像素掩蔽和基于伽马的非线性增强对低光照全分辨率图像I进行预处理,生成具有不同光照和噪声水平的子图像。这些子图像随后经过Decompose-Net处理,该网络采用集成混合退化表示的变压器架构,并通过交叉注意力注入引导嵌入。最后,LCnet用于增强光照图。


多头交叉注意力引导的混合先验退化表示的说明



本图中说明了在REFnet中,特征令牌如何与退化表示进行交叉注意力计算,以指导反射率图的提取。经过处理后,特征图显示出更清晰的层次结构和更少的噪声,表明这种机制有效地整合了多种退化特征。


实验结果



本表格详细列出了不同低光照图像增强方法在 LOLv1 和 LOLv2-Real 数据集上的性能评估结果,具体指标包括 PSNR↑、SSIM↑和 LPIPS↓。这些指标从不同角度反映了增强后图像的质量,其中 PSNR 和 SSIM 主要衡量图像的客观质量,LPIPS 则更侧重于感知质量。表中比较的方法涵盖了监督学习方法(如 URetinexNet、SNR-aware、LLFormer、Retinexformer 和 Retinexmamba)、无配对学习方法(如 EnlightenGAN、PairLIE 和 Nerco)、以及无参考学习方法(如 ZERO-DCE、RUAS、SCI 等)。可以看出,监督学习方法通常在 PSNR 和 SSIM 等客观指标上有较好的表现,但在 LPIPS 等感知指标上可能稍逊一筹。


辑:王菁



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU


无监督学习就像是让AI自己看图猜谜,不用告诉它标准答案,让它自己琢磨怎么把黑乎乎的照片变亮。好处是省事儿,不用费劲巴拉找一堆“完美修复”的照片教它;坏处是AI可能会猜错,或者增强出来的效果不太符合人类审美,需要更精巧的算法让它别跑偏。

DCT就像是给图像做了一个“频谱分析”,把图像分解成不同频率的成分,这样就能更容易地找到图像里的“坏东西”,比如噪声通常集中在高频部分。选择DCT可能是因为它更擅长处理图像这种“实数信号”,而且算起来更快,效率更高。傅里叶变换虽然也很强大,但更适合处理声音之类的周期性信号。

Retinex理论的核心思想是把图像看作是反射率和光照的乘积,增强的目的就是估计并调整光照分量,从而提高图像的亮度和对比度。其他常见的图像增强方法包括基于深度学习的方法,例如GAN(生成对抗网络)和Transformer,它们可以通过学习大量数据来自动提取图像特征并进行增强。还有一些传统的空间域方法,如各种锐化和模糊算子,以及频率域方法,比如同态滤波。

使用DCT对物理先验建模的作用是捕捉图像中的频率信息,从而在频域内分离复杂的退化特征,比如噪声和光照不均。选择DCT而不是傅里叶变换,可能是因为DCT具有更好的能量集中性,能够更有效地将图像的能量集中在少数几个低频系数上,有利于提取和处理主要的退化特征。另外,DCT在图像压缩领域应用广泛,有成熟的算法和优化方案。

无监督学习意味着模型在训练时不需要提供明确的“正确答案”,而是让模型自己从数据中学习规律。在低光图像增强领域,优势在于可以避免人工标注数据的成本和偏差,因为真实场景的低光图像很难找到完美的对应正常光图像。劣势在于模型的训练过程更复杂,需要设计巧妙的损失函数和网络结构来引导模型学习到有效的特征。

Retinex理论主要模拟人眼视觉系统,将图像分解为反射分量和光照分量,认为图像的颜色是由物体反射光决定的,而不是绝对的光强。因此,通过估计和调整光照分量,可以增强图像的对比度和亮度,同时保持颜色恒常性。常见的图像增强理论或方法还有:直方图均衡化、小波变换、频域滤波等。各有优劣,适用场景也不同,比如直方图均衡化简单粗暴,但容易引入噪声;小波变换在去噪方面效果较好,但计算复杂度较高。

DCT在这里的作用是将图像从空间域转换到频率域,便于分析和处理图像的频率成分。选择DCT的原因有很多,包括:1. DCT的能量集中性好,可以将图像的大部分能量集中在少数几个系数上,方便提取有效信息。2. DCT是实数变换,计算复杂度相对较低。3. DCT具有良好的去相关性,可以将图像中的相关性降低,便于后续处理。而傅里叶变换是复数变换,计算复杂度较高,且对图像的能量集中性不如DCT。

“无监督”意味着该方法不需要配对的低光/正常光图像进行训练,而是通过自身生成具有不同光照和噪声水平的子图像来进行学习。优势在于避免了对大量标注数据的依赖,降低了成本和难度,能够更好地适应真实世界的复杂场景。劣势在于效果可能不如有监督学习方法精确,需要在算法设计上进行更多的创新和优化才能达到 comparable 的效果。

Retinex就像是给照片做了个“光影魔术”,把图像拆成“物体本来的颜色(反射率)”和“打在物体上的光(光照)”,然后重点调整光照,让暗的地方亮起来,但又尽量不改变颜色。其他的图像魔法还有很多,比如“美颜相机”里常用的磨皮(平滑处理,减少噪点)、锐化(让边缘更清晰),还有各种滤镜,本质上都是在改变图像的颜色和光线。