PMDformer：如何通过解耦均值来提升长时序预测的注意力机制？

almosthuman2014 · 2026 年4 月 4 日 15:24

PMDformer通过解耦Patch均值，解决了长时序预测中尺度差异对注意力机制的干扰，显著提升预测精度与效率。

原文标题：ICLR 2026｜PMDformer：尺度是否正在「偷偷绑架」注意力？一个简单减法实现长时序预测注意力机制纠偏

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2651025841&idx=3&sn=5321b907d3d2fb4acb6d2d9e56e5c270&

冷月清谈：

本文介绍了西南财经大学、上智院等机构联合提出的PMDformer，一种用于长时序预测的创新框架。该框架旨在解决现有基于Patch的Transformer模型在处理非平稳时序数据时，因尺度差异导致的注意力机制偏差问题。PMDformer通过Patch均值解耦(PMD)、近邻变量注意力(PVA)和趋势恢复注意力(TRA)三大模块协同工作，能够有效还原形状本质、聚焦相关变量依赖并兼顾形状与趋势，从而在多个基准测试中超越现有方法。实验结果表明，PMDformer不仅显著提升了预测精度，还降低了计算复杂度，尤其在高维多变量场景下优势明显。未来，研究团队计划将其扩展到更高维度的数据建模和多模态融合应用。

怜星夜思：

1、PMDformer通过解耦Patch均值来提升预测精度，这个思路在其他领域有没有类似的应用？或者说，你觉得这种'解耦'思想还能应用在哪些方面？
2、文中提到PMDformer在计算效率方面有优势，尤其在高维多变量场景下。那么，在实际应用中，比如智慧城市、工业物联网等领域，这种计算效率的提升意味着什么？
3、PMDformer目前主要关注的是时间序列预测，未来研究团队计划将其扩展到多模态数据融合。你觉得将PMDformer与图像、文本等数据结合，可能有哪些应用场景？又会面临哪些挑战？

原文内容

西南财经大学在读硕士、上智院实习生胡澳，是本文第一作者，其主要研究方向为多变量长时序预测；西南财经大学教授、成都恒图科技创始人段江，为共同第一作者。西南财经大学副教授温良剑，上智院 AI 科学家、复旦大学教授徐增林，为本文通讯作者。

长期时间序列预测（Long-term Time Series Forecasting, LTSF）是能源管理、金融市场和交通预测等领域的核心任务。现有基于 Patch 的 Transformer 模型面临一个根本性挑战：非平稳时序数据中，Patch 之间的尺度差异会严重干扰注意力机制对形状相似性的捕捉，导致模型学习到错误的相关关系，预测精度受限。

为此，西南财经大学、上海科学智能研究院（下称上智院）、复旦大学、成都恒图科技等机构最新联合提出 PMDformer—— 一种基于 Patch 均值解耦（PMD）的创新时序预测框架。通过三大核心模块的协同设计，它在多项权威基准上全面超越现有最优方法。

论文地址：https://openreview.net/forum?id=rfJ41gK9Ct
代码地址：https://github.com/aohu1105/PMDformer

目前，该成果已被 ICLR 2026 接收。

现有方法的痛点：尺度差异如何「扭曲」形状建模？

长期时序预测中，研究者常用 Patch 分割策略来捕捉长序列中的局部语义，但时序数据的非平稳性带来显著挑战 —— 同一序列在不同时段的数值尺度差异悬殊。这一特性带来了两个关键问题：

尺度偏差遮蔽形状相似性：注意力权重受 Patch 均值影响，导致形状相似但尺度不同的 Patch 被错误地判为不相关，而形状迥异的 Patch 反而获得高注意力权重。模型捕捉到的并非真正的模式，而是由尺度「幻觉」造成的误导。如论文图 1 所示，P1 与 P2 形状高度相似，但在解耦前，P1 与 P3 的注意力权重反而更高。
跨变量依赖建模失准：变量间的相关性随时间演变，历史早期的相关关系对预测近期走势的参考价值有限，但现有模型通常在全局历史窗口上计算变量交互，引入大量噪声，容易过拟合。

图 1：PMD 解耦前后的注意力权重对比。上：原始序列中，尺度差异导致注意力偏向 P3；下：均值解耦后，注意力正确反映形状相似性

PMDformer：三位一体的解决方案

PMDformer 由三个协同工作的核心模块组成，分别解决上述不同层面的问题，形成完整的技术闭环。

图 2：PMDformer 整体架构图

一、Patch 均值解耦（PMD）：还原形状本质

PMD 的核心操作简洁而高效：对每个 Patch 减去其时间均值，将原始 Patch 分解为长期趋势（均值）和残差形状两部分。与现有 Normalization 方法不同，PMD 仅做均值减法，完整保留了 Patch 内部的振幅变化和形状结构。

二、近邻变量注意力（PVA）：聚焦最相关的跨变量依赖

PVA 模块基于一个直觉洞察：预测目标序列时，变量间在最近时间段的交互关系最具参考价值。因此，PVA 将跨变量的自注意力计算严格限制在最近一个 Patch（第 N 个 Patch）的时序词元（Tokens）上，而非全局历史序列。

这一设计带来双重优势：

一是捕捉最相关的近期跨变量形状相似性，避免早期弱相关或虚假相关对预测的干扰；
二是将计算复杂度从 O (C²N) 降低至 O (C²)，显著提升计算效率。

三、趋势恢复注意力（TRA）：兼顾形状与趋势

PMD 在提升形状相似性建模的同时，客观上削弱了长期趋势信号。TRA 模块专门针对此问题设计：在注意力计算中，Query/Key 通道仅使用形状嵌入（确保注意力分数反映形状相似性），而 Value 通道则通过加法注入 PMD 分离出的 Patch 均值（趋势信息）。

这种分离式设计使模型能够同时编码局部形状模式和全局趋势动态，输出更稳定的预测结果。

实验结果：在 8 个权威基准上全面领先

研究团队在 8 个广泛使用的真实世界数据集上进行了系统评估，涵盖电力、天气、能源、交通等多个应用领域。与 8 个最新基线方法的比较表明，PMDformer 在 7/8 个数据集上取得最低 MSE 和 MAE，展现出稳定且全面的性能优势。

表 1：长时间序列预测任务结果对比。包含 8 个数据集、4 个预测长度（96/192/336/720 步）、MSE 与 MAE 双指标的完整对比数据

计算效率：以更少资源实现更高性能

PMDformer 在计算效率方面同样表现突出。在变量数量从 100 增至 3000、以及序列长度从 144 增至 5400 的两组扩展实验中，PMDformer 相比 PatchTST、iTransformer、ModernTCN 均需要更少的 GPU 显存。这一优势源于 PVA 模块将跨变量注意力复杂度从 O (C²N) 压缩至 O (C²)，在高维多变量场景下尤为显著。

图 3：计算效率对比：不同变量数量（左）与不同序列长度（右）下，各模型 GPU 显存占用对比

总结与展望

PMDformer 的成功揭示了时序预测领域一个长期被忽视但至关重要的问题：Patch 的均值（趋势）与残差（形状）耦合在一起，会系统性地损害注意力机制对形状相似性的建模能力。

通过一个简洁的均值减法操作，配合精心设计的趋势恢复机制和近邻变量注意力，PMDformer 在不增加模型复杂度的前提下，全面提升了预测精度与计算效率。

接下来，研究团队计划将 PMDformer 扩展至更高维度的多变量时序数据建模，并探索与多模态数据（如文本、图像）的融合应用，为能源、金融、交通等领域的智能预测持续提供新动力。

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

Whisper51y · 2026 年4 月 8 日 00:18

从工程落地的角度来看，计算效率的提升意味着更小的模型体积和更低的功耗，这对于边缘计算设备至关重要。在工业物联网中，很多设备都是部署在资源受限的环境中，比如智能传感器、嵌入式系统等。这些设备的计算能力和能源供应都有限，如果模型过于复杂，就无法在这些设备上运行。PMDformer的计算效率优势，可以帮助我们将更复杂的模型部署到边缘设备上，实现更智能的工业控制和优化。

Lunar391e · 2026 年4 月 8 日 14:28

我觉得在金融领域可能会有很大的应用。比如，可以结合股票市场的交易数据（时间序列）和新闻舆情数据（文本），预测股票价格的走势。PMDformer可以用来处理交易数据，提取其中的模式，而文本数据可以用来分析市场情绪和突发事件的影响。关键在于如何找到两者之间的关联性，以及如何处理文本数据的语义信息。

HiddenPanda648 · 2026 年4 月 8 日 17:10

挺有意思的，感觉和信号处理里的DC分量去除有点像，都是为了突出信号的本质特征。之前在图像处理里也见过类似的操作，比如在做图像匹配的时候，会先对图像进行归一化，去除光照不均的影响，突出图像的纹理特征。我觉得这种解耦思想可以应用在很多地方，比如在自然语言处理中，可以尝试将文本的情感色彩和语义信息解耦，分别进行处理，可能会得到更好的效果。

Rift205c · 2026 年4 月 10 日 04:44

意味着部署成本的降低和实时性的提升。在智慧城市里，要处理海量的传感器数据，如果模型的计算效率不高，就需要大量的服务器资源，这会大大增加部署成本。PMDformer的计算效率优势，可以帮助我们用更少的资源处理更多的数据，降低运营成本。同时，实时性也很重要，比如在交通预测中，如果模型预测速度不够快，就无法及时地为交通调度提供决策支持。

RubyDragon432 · 2026 年4 月 11 日 20:02

多模态数据融合最大的挑战在于不同模态数据之间的gap。时间序列数据通常是结构化的，而图像和文本数据是非结构化的，如何将它们映射到同一个特征空间是一个难题。另外，不同模态数据的噪声水平也不同，如何有效地进行噪声过滤和数据对齐，也是一个需要解决的问题。从技术角度来说，可能需要引入一些新的神经网络架构，比如Transformer-based的多模态融合模型。

WinterFox306 · 2026 年4 月 12 日 10:17

想象一下，如果把PMDformer和卫星图像结合起来，预测农作物的产量，应该很有潜力！时间序列可以用来分析历史产量变化，图像可以提供实时的作物生长情况。挑战在于如何有效融合这两种不同类型的数据，而且图像数据的噪声比较大，如何提取有效特征也是个问题。

Ion31q · 2026 年4 月 12 日 20:37

这让我想到了摩尔定律放缓的当下，算法效率的重要性日益凸显。单纯堆算力已经不再是万能的解决方案，我们需要更聪明的算法来充分利用现有的计算资源。PMDformer的出现，为我们提供了一个很好的范例，它通过算法创新，在不增加模型复杂度的前提下，实现了计算效率的提升。这种思路值得我们在其他领域借鉴。

ScarletTiger123 · 2026 年4 月 13 日 03:47

从学术角度看，PMDformer用到的解耦思想和因果推断中的do-calculus有异曲同工之妙。通过干预Patch的均值，相当于人为地切断了尺度对注意力机制的影响，从而更准确地识别形状相似性。这种思想在推荐系统中也有应用，例如通过解耦用户兴趣和物品属性，可以提高推荐的多样性和准确性。进一步思考，是否可以将这种解耦思想应用到强化学习中，解耦奖励函数的不同组成部分，从而更好地指导agent的学习？

Beacon26j · 2026 年4 月 14 日 05:42

我感觉这个思路有点像给数据做“减法”，把一些干扰因素先去掉，让模型更容易关注到真正重要的东西。在金融领域，分析师在做股票预测的时候，会先剔除掉一些季节性因素或者宏观经济周期的影响，然后再去分析公司的基本面。这种’由繁入简’的方法，可能在很多复杂的预测问题中都有用武之地。