Fredformer模型：解决时间序列预测中的频率偏差问题

DatapiTHU · 2024 年10 月 26 日 16:54

Fredformer模型通过频率域建模解决了时间序列预测中的频率偏差问题。

原文标题：如何处理多频段时序特征？这个Transformer变体显著提升预测效果

原文作者：数据派THU

原文链接： http://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247646964&idx=2&sn=e8335454153f8e1667cbb706c732547c&

冷月清谈：

本文介绍了Fredformer模型的研究，该模型是针对时间序列预测中的频率偏差问题提出的。传统的Transformer模型在捕捉时间序列特征时，往往优先关注低频特征而忽视高频特征，导致预测效果不佳。研究者通过分析发现，频率偏差源自模型对不同频率成分的比例差异，影响了高频特征的捕捉。为了解决这个问题，Fredformer采用了创新的设计，通过离散傅里叶变换（DFT）将数据转换到频率域进行建模，结合频率细化和归一化的方法，确保模型均衡地关注所有频率特征。此外，模型结构轻量，计算效率高，经过实验证明，Fredformer在多个数据集上表现优异，提供了一个更加准确的预测方案。

怜星夜思：

1、你认为频率偏差问题在其他领域也存在吗？如果有，可能会影响哪些方面？
2、Fredformer模型相比于传统Transformer模型的最大优势是什么？
3、在实际应用中，哪些实时数据会受益于Fredformer模型的改进？

原文内容

来源：时序人‍‍
本文约2300字，建议阅读9分钟
研究者为了验证 Fredformer 模型的有效性，设计了一系列的实验。

Transformer 模型已在时间序列预测中展现了卓越的性能。然而，在一些复杂场景中，它倾向于学习数据中的低频特征，而忽略了高频特征，表现出一种频率偏差。这种偏差阻碍了模型准确捕捉重要的高频数据特征。

本文介绍一篇来自 KDD 2024 的论文，这是首篇研究时间序列预测中频率偏差问题的文章。其研究者通过实证分析来理解这种偏差，并发现频率偏差源于模型不成比例地关注具有更高能量的频率特征。基于分析，研究者提出了 Fredformer，这是一个基于 Transformer 的框架，旨在通过在不同频率带之间均衡地学习特征来减轻频率偏差。这种方法防止了模型忽视对准确预测至关重要的低幅特征。广泛的实验表明了这种方法的有效性，在实现了可比性能的同时，参数规模更少，计算成本更低。

【论文标题】

Fredformer: Frequency Debiased Transformer for Time Series Forecasting

【论文地址】

https://arxiv.org/abs/2406.09009

【论文源码】

https://github.com/chenzRG/Fredformer

论文背景

现有的 Transformer 模型在时间序列预测任务中，倾向于捕捉低频特征而忽略高频特征，这种频率偏差问题会导致模型无法准确捕捉重要的高频数据特征。而在复杂的时间序列预测场景中，准确捕捉各种时间变化（如趋势、季节性和波动）对于提高预测准确性至关重要。现有的方法在处理这些复杂变化时存在局限性。

图1：模型效果对比

从模型的角度来看，研究者注意到 Transformer 中普遍存在的一种学习偏差问题，即自注意力机制通常会优先考虑低频特征，而忽视高频特征。这种微妙的问题也可能出现在时间序列预测中，可能会偏向模型结果并导致信息丢失。

研究者探索了通过频率域建模来捕获复杂变化以进行准确时间序列预测的一个方向，进而提出了 Fredformer，这是一个去偏的 Transformer 模型。Fredformer 继承了频率分解的思路，且进一步研究了如何促进 Transformer 在学习频率特征时的使用。为了提高模型方法的有效性，研究者提供了对时间序列预测中频率偏差的全面分析以及去偏策略。该工作的主要贡献在于三个方面：

问题定义：研究者进行了实证研究，以调查这种偏差是如何被引入到时间序列预测 Transformer 中的。文中观察到，主要原因是关键频率成分之间的比例差异。值得注意的是，这些关键成分在预测的历史数据和真实数据中应该是一致的。此外，研究者还调查了影响去偏的目标和关键设计。
算法设计：Fredformer 有三个关键组件：用于频率带的补丁操作、用于减轻比例差异的子频率独立归一化，以及每个子频率带内的通道注意力，用于公平学习所有频率和注意力去偏。
适用性：Fredformer 采用 Nyström 近似来降低注意力图的计算复杂性，从而实现了具有竞争性能的轻量级模型。这为高效的时间序列预测开辟了新的机会。

理论分析

研究者通过两个案例研究来展示时间序列数据的频率属性如何导致 Transformer 模型的预测偏差，以及对潜在去偏策略的实证分析。如下图所示：

图2：两个案例研究可视化图

案例a：

通过生成具有不同频率成分比例的单通道时间序列数据，并使用 Transformer 模型进行预测，展示了模型在训练过程中对不同频率成分的捕捉情况。结果表明，模型倾向于关注低频成分，而忽略了高频成分。

案例b：

探讨了不同的建模策略对于去偏的影响，包括在频率域进行建模和在时间域进行建模，并引入了频率局部归一化的概念。

研究者引入了一个基于傅里叶分析的相对误差度量方法来量化 Transformer 模型输出的频率偏差。基于上述分析，研究者提出了直接在频率域建模，并结合比例缓解策略来实现去偏的潜力。

模型方法

图3：Fredformer模型框架

Fredformer 模型是通过一系列创新的设计来解决时间序列预测中的频率偏差问题，其架构包括以下主要组件：

01 DFT到IDFT的基础架构

使用离散傅里叶变换（DFT）将输入时间序列分解为频率成分，并通过逆离散傅里叶变换（IDFT）重构预测结果。

首先，模型使用 DFT 将输入的时间序列数据分解成频率系数。然后，通过一个 Transformer 编码器对频率系数进行处理，学习去偏的频率特征。最后，使用 IDFT 将处理后的频率输出重构回时域信号。

02 频率细化与归一化

对频率谱进行细分，使用非重叠的补丁操作将频率成分分为多个子频率带，以避免不同频率成分之间的相互影响。通过对频率补丁进行归一化，消除不同频率成分之间的比例差异，确保模型对所有关键频率成分的均等关注。

03 频率局部独立建模

在归一化后的子频率分块上，模型部署了 Transformer 编码器来独立学习每个分块的特征。通过这种方式，模型能够专注于相同频率带内跨通道的相关性，而不是不同频率成分之间的幅度差异，从而实现去偏。

04 频率汇总

在学习到每个子频率带的特征之后，模型通过线性变换和 IDFT 将这些特征信息汇总，形成最终的预测输出。

实验效果‍‍‍‍

研究者为了验证 Fredformer 模型的有效性，设计了一系列的实验。研究者选择了八个真实世界的时间序列数据集，包括天气、电力变压器温度（ETT）、电力消耗、交通和太阳能等数据。

研究者将 FredFormer 与多个现有的最先进（SOTA）模型进行比较，包括但不限于iTransformer、PatchTST、Crossformer、FEDformer等。也包括了一些非 Transformer 模型，如线性模型和 TCN 模型。实验结果如下表所示：

表1：多变量预测下不同预测长度的表现

表2：所有数据完整测试结果

使用 DFT 可视化模型输出、输入和真实数据之间的频率偏差。通过热图展示了不同模型在训练过程中对特定频率成分的捕捉情况。

通过移除 Fredformer 模型中的特定组件（如通道注意力和频率细化）来评估这些组件对性能的影响。展示了不同配置下模型的预测准确性，以证明模型设计的合理性。

编辑：黄继彦

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU

NobleStag037 · 2024 年12 月 1 日 23:08

像天气预报数据就很需要高频特征，Fredformer模型可能能更准确预测短期气候变化，给公众带来更靠谱的信息。

Rift205c · 2024 年12 月 4 日 13:33

电力消耗的预测也是个好例子，尤其是高峰时段的需求，准确捕捉高频成分能帮助公司更好地进行资源调配。

BlueJay945 · 2024 年12 月 1 日 19:43

交通流量监控也可以受益，实时高频数据的变化会影响城市的交通管理，及时的预测能有效减少拥堵情况。

Ember34n · 2024 年12 月 4 日 18:23

肯定存在，尤其是在信号处理和音频分析领域，频率偏差同样会导致信息丢失或失真的问题，这会影响声音的清晰度和音乐的还原度。

Spark21u · 2024 年12 月 6 日 11:52

我觉得在金融市场分析中，频率偏差也可能影响到波动率的数据预测，导致错误的投资决策。毕竟钱是非常敏感的，任何偏差都可能造成巨大的经济损失。

AutumnWind074 · 2024 年12 月 4 日 10:54

媒体传播中也有类似的问题。比如，某个新闻事件的舆论热度如果只看低频成分，可能会遗漏突发性重要事件的及时性，影响新闻效果。

WinterFox306 · 2024 年12 月 1 日 21:04

最大优势在于其频率域建模的方法，可以有效减轻频率偏差。这使得模型在捕捉高频特征时更具优势，提供更准确的预测。

Arcane69f · 2024 年12 月 2 日 01:01

我觉得是高效计算的方面！Fredformer在复杂的时间序列预测中依然能保持较低的计算成本，这让它在实际应用中更具可操作性。

Comet761k · 2024 年12 月 6 日 22:57

Fredformer的模块化设计也很赞，灵活的频率细化和归一化处理确保了所有频率成分都能被公平对待，这应该更能反映真实数据特征。