DiffFNO:傅里叶神经算子赋能扩散模型,突破任意尺度超分辨率的瓶颈

DiffFNO利用傅里叶神经算子赋能扩散模型,实现高质量、高效率的任意尺度超分辨率,PSNR指标领先SOTA方法2-4dB。

原文标题:CVPR 2025 Oral | DiffFNO:傅里叶神经算子助力扩散,开启任意尺度超分辨率新篇章

原文作者:机器之心

冷月清谈:

本文介绍了圣路易斯华盛顿大学与北京大学联合提出的DiffFNO,这是一种利用傅里叶神经算子(FNO)增强扩散模型的方法,旨在实现高质量、高效率的任意连续比例超分辨率(SR)。DiffFNO通过加权傅里叶神经算子(WFNO)捕获全局信息并放大高频细节,通过门控融合机制整合谱域和空域特征,并通过自适应ODE求解器加速推理过程。实验结果表明,DiffFNO在多个基准数据集上均显著优于现有技术,尤其是在大倍率超分辨率任务中,并在训练分布之外的超分倍率上也有显著改进。该研究为解决超分辨率任务中“高质量重建”与“快速推理”之间的矛盾提供了新的思路,并在医疗影像、卫星遥感等领域具有广泛的应用前景。

怜星夜思:

1、DiffFNO中使用的加权傅里叶神经算子(WFNO)是如何改进传统FNO在高频细节恢复方面的不足的?这种改进思路对其他图像处理任务有什么借鉴意义?
2、DiffFNO中门控融合机制的作用是什么?如果直接将WFNO和AttnNO的特征进行简单拼接,会有什么问题?
3、DiffFNO 使用自适应步长 ODE 求解器来加速扩散模型的逆过程,这种方法的关键在于如何确定合适的步长。如果在复杂度高的区域步长过大,会造成什么影响?如果在平滑区域步长过小,又会造成什么影响?

原文内容


本文由圣路易斯华盛顿大学与北京大学联合完成,第一作者为圣路易斯华盛顿大学的刘晓一,他在北京大学访问期间完成了该项研究;通讯作者为北京大学计算机学院唐浩助理教授 / 研究员。


从单张低分辨率(LR)图像恢复出高分辨率(HR)图像 —— 即 “超分辨率”(SR)—— 已成为计算机视觉领域的重要挑战。近年来,随着医疗影像、卫星遥感、视频监控和游戏渲染等应用对图像细节的需求不断提升,该技术的应用愈发广泛。传统深度学习超分模型(如 SRCNN、EDSR)在固定放大倍数下表现优异,但要么无法支持任意放大尺度,要么在大倍率和复杂纹理场景中常出现细节模糊和伪影。扩散模型能有效恢复高频细节,却因需多次迭代去噪而推理缓慢,难以满足实时应用需求。为彻底打破 “高质量重建” 与 “快速推理” 之间的矛盾,算子学习在运算效率和分辨率不变性方面的提升为该领域带来了新的机遇。


圣路易斯华盛顿大学和北京大学团队提出的 DiffFNO(Diffusion Fourier Neural Operator)以神经算子赋能扩散架构。该方法支持高质、高效、任何连续倍率(如 2.1、11.5 等)的超分。它的优秀表现来源于三大组件:【1】加权傅里叶神经算子(WFNO)、【2】门控融合机制、和【3】自适应 ODE 求解器。在各大基准上,DiffFNO 均以 2~4 dB PSNR 优势领先于 SOTA 方法。在训练分布外的超分倍率上,改进效果尤为明显。此研究已入选 CVPR 2025 Oral。



  • 论文题目:DiffFNO: Diffusion Fourier Neural Operator

  • 论文主页:https://jasonliu2024.github.io/difffno-diffusion-fourier-neural-operator/

  • 论文链接:https://arxiv.org/abs/2411.09911


一、核心思路与框架概览


DiffFNO 由三大模块组成:


1.WFNO(Weighted Fourier Neural Operator)+模式重平衡(Mode Rebalancing):借助频域卷积捕获全局信息,并通过可学习的频率权重放大高频分量,进一步增幅普通 FNO 在超分任务中对高频细节的提取。


2.Gated Fusion Mechanism(门控融合机制):并行引入轻量化的注意力算子(AttnNO),以捕捉局部空间特征。时空动态门控图将谱域与空域特征按需融合,兼具全局一致性与细节刻画。


3.ATS ODE Solver(自适应步长 ODE 求解器):将扩散模型逆过程从随机 SDE 转化为确定性 ODE,仅几十步内即可完成去噪重建,大大提升推理速度。


下图展示了 DiffFNO 的完整流架构。此方法将图片图片视作从空间坐标到 RGB 值的方程,通过 WFNO 学习此类方程之间的任意分辨率超分映射,在门控机制的调适下与空域算子协作,再由自适应求解器高效地用扩散模型进一步优化重构结果图片 的质量。



二、加权傅里叶神经算子与模式重平衡


传统 FNO 在频域对输入特征进行截断处理,舍弃高频模式以降低计算量,但这也导致超分场景中纹理、边缘等细节难以恢复。WFNO 通过以下两步予以改进:


  • 全模式保留:保留完整傅里叶频谱,兼顾图片信息的整体解构与局部细节;

  • 可学习频率权重:在每一层引入可学习的标量参数图片  ,与频率范数

    结合,动态调整不同频段的影响力。


具体地,频域滤波器由权重实现了对高频细节的自适应放大。实验表明,WFNO 相比普通 FNO 在大倍率超分任务中,PSNR 提升约 0.3–0.5 dB,细节还原更加清晰。


三、门控融合:谱域与空域特征的智慧分配


尽管 WFNO 强于全局依赖建模,但局部纹理如微小纹路、噪点修复仍需空域信息。于是,DiffFNO 并行引入 Attention-based Neural Operator(AttnNO),其核心由双三次插值、Galerkin 注意力和非线性激活组成,可高效捕捉局部关联。两路输出 WFNO 和 AttnNO 特征经通道拼接后,通过 1×1 卷积加 sigmoid 得到门控图。


此方式兼具光谱全局信息与空间局部信息,让网络在不同像素位置灵活 “借力”,避免了简单拼接带来的冗余计算与信息冲突。


四、自适应步长 ODE:从上千步到数十步


扩散模型逆向过程本质为去噪迭代,若按原生 SDE 形式采样,通常需上千步,耗时数百毫秒以上。DiffFNO 首先将随机 SDE 转化为确定性概率流 ODE,再引入自适应时间步分布:


1. 以多项式基函数构造可学习的映射,通过其逆函数生成非均匀步长;

2. 在每一步评估区域复杂度,动态分配步长,使关键阶段步长更细、平滑区域步长更粗;

3. 采用经典的 RK4 高阶求积器,兼顾精度与效率。


如此一来,DiffFNO 使用自适应 ODE 求解器后,仅需约 30 步即可还原高清图像——与传统需要约 1000 步的逆扩散过程相比,推理步数减少了近 33 倍;推理时间也几乎减半(从266 ms 缩短至约 141 ms),但图像质量依旧保持不变,甚至在大尺度放大下表现更佳。


五、实验验证与视觉对比


在 DIV2K、Set5、Set14、BSD100、Urban100 等五大公开数据集上,DiffFNO 均以 2~4 dB 的 PSNR 优势领先于 MetaSR、LIIF、SRNO、HiNOTE 等多种 SOTA 任意尺度超分方法,其中优势在 ×8、×12 等大倍数放大时更加显著。





定性结果中,DiffFNO 对建筑细节、植物纹理、动物皮毛、玻璃反射等高频结构均有出色复原,边缘轮廓锐利且伪影极少。


消融研究表明:


  • 去除模式重平衡,PSNR 下降约 0.4 dB;

  • 去除 AttnNO,局部纹理复原受损;

  • 去除 ATS,所需推理步数回升至千步级。


这些实验共同证明,三大组件缺一不可,相辅相成。



六、总结


本文介绍了 DiffFNO,一种以神经算子强化扩散的新颖任意分辨率方法。通过加权傅里叶神经算子、门控融合机制、和自适应 ODE 求解器,该方法取得了优异的计算时效和高质量的重构,为看似矛盾的 “高精度” 与 “低成本” 取舍提供了新的思路。实验结果表明,我们的方法在多个数据集中、训练分布之外均优于以往与当代任意分辨率方法。DiffFNO 有力地打破了超分任务中固定尺寸的枷锁,适用于医学,勘探,游戏等多个对图像质量有着高要求的领域。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]




门控融合机制的关键在于“按需融合”。它通过门控图动态地控制WFNO和AttnNO特征的融合比例,使得网络可以根据不同像素位置的特性,灵活地选择使用全局信息(来自WFNO)或局部信息(来自AttnNO)。如果直接简单拼接,会导致冗余计算和信息冲突,因为并非所有像素都需要同时使用全局和局部信息,而且两种特征可能存在不一致性。

这个自适应步长的思路有点像数值分析里的自适应积分。步长太大,精度不够;步长太小,效率太低。关键在于找到一个合适的误差估计方法,根据误差来动态调整步长。在图像超分里,复杂度高的区域意味着梯度变化剧烈,误差更容易积累,所以需要更小的步长。DiffFNO 的难点在于如何设计一个有效的区域复杂度评估方法,以及如何将评估结果转化为合适的步长。

楼上说得对,WFNO 确实在频域信息保留和权重调整方面下了功夫。但我觉得更关键的是它提供了一个思路,即在神经网络中引入可学习的参数来动态调整不同频率分量的影响。这其实有点像信号处理里的自适应滤波,可以根据不同的图像内容和任务需求,灵活地调整滤波器的特性。这种思路可以推广到很多领域,比如音频处理,甚至某些控制系统。

我觉着这个自适应步长有点像开车,路况好的时候可以开快点,路况差的时候就要慢点。如果路况很差还开很快,容易翻车(图像质量下降);如果路况很好也开很慢,就浪费时间了(推理速度慢)。关键是要根据路况调整车速,才能安全又高效地到达目的地。DiffFNO 的自适应步长 ODE 求解器就是要在图像超分这条路上,找到最合适的“车速”。

WFNO主要通过两点改进:一是保留完整傅里叶频谱,不进行高频截断;二是引入可学习的频率权重,自适应地放大高频分量。这使得它能够更好地保留和恢复图像中的纹理、边缘等细节。这种思路的借鉴意义在于,对于需要精细结构信息的图像处理任务,可以考虑在频域进行更精细的处理,而不是简单地丢弃高频信息。例如,在图像去噪、图像修复等任务中,可以尝试使用类似的方法来更好地保留图像的细节。

楼上的比喻很形象!我再补充一点,直接拼接可能还会导致维度灾难,增加计算负担。门控融合机制通过减少冗余信息,降低了模型的复杂度,使其更容易训练和泛化。这就像我们学习一样,要学会抓住重点,忽略不重要的信息,才能更高效地掌握知识。

自适应步长 ODE 求解器的核心思想是根据图像的局部复杂度动态调整步长大小。如果在复杂度高的区域步长过大,会导致图像细节信息的丢失,重建质量下降,出现模糊等伪影。反之,如果在平滑区域步长过小,虽然能保证精度,但会增加计算量,降低推理速度,得不偿失。因此,DiffFNO需要精确地评估区域复杂度,并根据评估结果来动态分配步长,以在精度和效率之间找到一个最佳平衡点。

我理解门控机制有点像一个“开关”,控制哪些信息可以通过。简单拼接的话,相当于把所有“开关”都打开了,信息一股脑地涌进来,反而可能造成混乱。门控机制的好处在于,它可以选择性地让信息通过,避免不必要的干扰,提高效率和准确性。这种机制在深度学习中很常见,像 LSTM 里的门控单元就是类似的思路。

谢邀,怒答一波。WFNO的改进,个人感觉有点像是在传统频域处理的基础上加了个“精装修”,以前是粗暴的截断,现在是精细化的调整。借鉴意义的话,我觉得是提醒我们在处理问题的时候,不要一上来就想着用复杂的模型,有时候在经典方法上做一些小小的改进,就能取得意想不到的效果。这种“小步快跑”的思路,在科研中还是很重要的。