LiNo框架:重新定义时间序列预测,性能超越Transformer

LiNo框架革新时间序列预测,有效分离线性和非线性模式,性能超越Transformer,在多个数据集上取得SOTA结果。

原文标题:北大、港理工革新性LiNo框架:线性与非线性模式有效分离,性能全面超越Transformer

原文作者:机器之心

冷月清谈:

北京大学、香港理工大学和每因智能联合推出LiNo框架,革新了时间序列预测。LiNo 通过递归残差分解(RRD)技术,有效分离线性和非线性模式,并在13个真实世界数据集上取得了SOTA性能,超越了包括Transformer在内的现有模型。

不同于以往基于残差分解的方法,LiNo采用Li块提取线性模式,No块提取非线性模式,并递归地应用这两个块,逐步剥离时间序列中的复杂模式。这种方法提高了模型对周期性和非周期性特征的捕捉能力。

LiNo在多变量时间序列预测中表现尤为突出,在10个基准数据集中的9个上实现了最低的MSE。在单变量时间序列预测任务中,LiNo也在所有6个数据集上取得了最佳结果,相比先前最先进方法MICN,MSE降低了19.37%,MAE降低了10.28%。

LiNo框架的提出,为时间序列预测提供了新的思路,并有望在医疗、金融、气象等领域发挥重要作用。

怜星夜思:

1、LiNo框架与传统的基于残差分解方法的主要区别是什么?这种区别带来了哪些优势?
2、LiNo框架中的Li块和No块分别是如何设计的?它们各自的作用是什么?
3、LiNo框架在实际应用中有哪些潜在的优势和局限性?

原文内容

图片

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]

本文的通讯作者为北京大学计算机学院长聘副教授杨仝和香港理工大学助理教授王淑君。第一作者为香港理工大学 24 级博士生余国齐,以及联合作者北京大学 21 级软微学院博士生、每因智能创始人郭潇宇等。研究工作在北京大学计算机学院数据结构实验室和每因智能发起的研究课题中完成。 



  • 论文链接:https://arxiv.org/pdf/2410.17159
  • 代码链接:https://github.com/Levi-Ackman/LiNo

时间序列数据,作为连续时间点的数据集合,广泛存在于医疗、金融、气象、交通、能源(电力、光伏等)等多个领域。有效的时间序列预测模型能够帮助我们理解数据的动态变化,预测未来趋势,从而做出更加精准的决策。然而,时间序列数据通常包含复杂的线性和非线性模式,这些模式往往相互交织 (见下图 Fig.1),给预测模型的设计和优化带来了巨大挑战。

Fig.1 现实世界的时间序列往往是多种线性和非线性的交叠。上图中红色的序列可以被表征为其下方的两种线性和两种非线性模式的加和。

现有的模型依赖于 Autoformer 中提出的基于残差的 Trend (线性) 和 seasonal (非线性) 分解 —— 先使用一个运动平均核 (Auto/FEDformer,DLinear) 或者可学习卷积 (Leddam) 来获取 Trend 项,然后使用原始序列减去 Trend 得到 Seasonal 项。但是这样只能获取简单的线性模式,而且得到的非线性模型或者说 Seasonal 项事实上是由未充分提取的线性模型,待提取的非线性模式,以及序列中的噪声所组成的,应该被称为 Residual(残差),而不是 Seasonal。

Fig.2 LiNo 在电力数据集中最后一个变量上的预测可视化,LP 指线性预测,NP 指非线性预测。左侧的 Prediction(预测值)被划分为 General 的线性和非线性预测,中间和右侧,线性和非线性预测进一步被划分为更细致的多种模式。

Fig.3 Fig2 中用于预测各个线性和非线性分量的抽象权重的可视化。可以看到每种模式的预测权重是各有差异的。

同时,观察 Fig2&3,我们可以看到线性模式更多关注序列的长期模式,而非线性更多关注短期浮动。另外,用于预测线性和非线性的权重,以及用于预测不同线性或者不同非线性的权重之间均存在差异。因此,高效地对这些线性和非线性模式进行分离,不仅可以帮助理解时间序列内部的特质,得到更具有解释性的预测结果,还能帮助我们设计更高效更鲁棒的预测算法。

正是在这样的背景下,北京大学联合香港理工大学以及每因智能的研究团队提出了 LiNo 框架。该框架通过递归残差分解(Recursive Residual Decomposition, RRD)技术,实现了对线性和非线性模式的显式提取。

Fig.4 LiNo 框架图

LiNo 框架的算法核心在于其递归残差分解(RRD)策略,该策略灵感来源于经验模态分解(Empirical Mode Decomposition, EMD)。LiNo 采用两个主要的模块:Li 块和 No 块,分别负责线性和非线性模式的提取。

  • Li 块(Linear block):这一模块负责提取时间序列中的线性模式,如趋势和周期性成分。通过学习时间序列数据的自回归特性,Li 块可以捕捉长期依赖关系。Li 块可以采用移动平均核或其他线性滤波器,以捕捉数据中的线性结构。
  • No 块(Nonlinear block):这一模块负责提取时间序列中的非线性模式,如突变和复杂的季节性变化。No 块可以采用 Transformer 编码器或 TSMixer 等其他非线性模型,以捕捉数据中的非线性动态。
  • 通过交替和递归地应用 Li 块和 No 块,LiNo 框架能够逐步剥离并提取时间序列中的复杂模式,直到残差信号中不再包含有用的信息。在经过多个 LiNo 块的处理后,最终的预测结果是通过聚合所有 Li 块和 No 块的输出得到的。


这种方法不仅提高了模型对周期性特征的捕捉能力,而且增强了对非周期性特征的建模能力。

以下是算法的详细过程:

1.Li 块(Li Block)

Li 块的设计目的是提取时间序列中的线性模式。它通过一个可学习的自回归模型(AR)来实现,该模型具有完整的感受野,可以替代传统的移动平均(MOV)、可学习的一维卷积核(LD)和指数平滑函数(ESF)。

  • 线性模式提取:

对于输入特征图片,其中图片,Li 块通过以下公式提取第 i 个线性模式图片

图片


这里,图片表示自回归系数,图片表示偏置项。

  • 卷积操作:

提取线性部分的过程可以通过卷积实现,其中卷积核的权重设置为图片,偏置的权重设置为图片

  • 填充和 Dropout:

在应用卷积之前,对输入特征 H_i 进行填充,以确保 H_i 和 L_i 具有相同的尺度。通过应用 Dropout 以增强模型的泛化能力。

  • 线性预测:

- 通过映射提取的线性成分 L_i 得到该层的线性预测图片

2.No 块(No Block)

No 块的设计目的是同时处理时间序列中的时变模式、频率信息和序列间依赖性。

  • 时变和频率模式提取:

- 通过线性投影在时域和频域提取时变模式 和频率信息模式
- 使用快速傅里叶变换(FFT)和逆快速傅里叶变换(IFFT)在时域和频域之间转换。

  • 特征融合:
 
将时域和频域的特征融合并激活图片

  • 序列间依赖性建模:

使用 softmax 函数对进行通道维度的归一化,然后计算加权平均值以获得序列间依赖性信息


  • 非线性模式整合:

将时变、频率和序列间依赖性信息整合,通过层归一化和 MLP 处理,得到整体非线性模式 N_i

  • 非线性预测:

通过映射提取的非线性部分 N_i 得到该层的非线性预测图片

3. 聚合方法

最终的预测结果是通过聚合所有 Li 块和 No 块的输出得到的:

图片


这种方法不仅提高了模型对周期性特征的捕捉能力,而且增强了对非周期性特征的建模能力,从而在多个真实世界数据集上实现了优于现有最先进方法的性能。

在涵盖电力、金融、交通等 13 个广泛使用的真实世界数据集上,无论是单元时间序列预测还是多元时间序列预测,LiNo 均取得了优于现有最先进方法的性能,而且展现出优异的鲁棒性。

LiNO 框架在多变量时间序列预测中表现卓越(如表 1),尤其在 10 个基准数据集中的 9 个上实现了最低的 MSE 和 8 个上的最低 MAE,显著超越了包括 iTransformer 在内的先前模型。在高维度和复杂非线性的 PEMS 和 ECL 数据集上,LiNO 通过精细的非线性模式提取,平均 MSE 分别实现了 11.89% 和 7.87% 的降低。这些结果突出了 LiNO 在处理复杂时间序列数据时的高效能力,无论是在电力、交通还是金融领域,都展现了其在捕捉线性与非线性模式平衡中的重要性。

表 1 多变量时间序列预测

LiNO 框架在单变量时间序列预测任务中展现了顶尖的性能,根据表 2 的分析,它在所有 6 个数据集上都取得了最佳的预测结果。与先前的最先进方法 MICN 相比,LiNO 在六个数据集上将均方误差(MSE)降低了 19.37%,平均绝对误差(MAE)降低了 10.28%。特别是在 Weather、ETTh2 和 Traffic 数据集上,LiNO 分别实现了 47.11%、28.64% 和 12.97% 的 MSE 降低,这标志着预测精度的显著提升。LiNO 在单变量和多变量时间序列预测中的一致优越表现证明了它在不同场景下的广泛适用性。

表 2 单变量时间序列预测

LiNO 框架在单变量时间序列预测领域的表现极为出色,其设计基于 iTransformer 这一领先业界的变换器模型作为基础架构。如表 3 所示,通过与 'Raw'(传统设计)和 'Mu'(N-BEATS 中使用的递归表示分裂预测设计)的比较,LiNO 在 ETTm2、ECL 和 Weather 数据集上实现了 2.96%、6.34% 和 6.72% 的 MSE 降低,这一成就凸显了其在有效分离和处理线性与非线性模式方面的高效率。此外,LiNO 在面临不同噪声水平的挑战时,依然展现出了卓越的鲁棒性和可靠性,如图 5 所示,这不仅验证了其设计的稳健性,也进一步证实了在时间序列预测模型中区分线性与非线性模式对于提升预测鲁棒性的重要性。

表 3 LiNo 框架对 iTransformer Backbone 的预测精度提升

Fig 5 LiNo 框架对 iTransformer Backbone 的鲁棒性提升

LiNo 框架的提出,不仅推动了时间序列预测技术的发展,也为设计更有效、更鲁棒,更具有解释性的预测模型提供了新的思路和工具。

© THE END 
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]

Li块用可学习的自回归模型提取线性模式,可以理解为它在学序列的长期趋势。No块则是结合了时域、频域和序列间依赖性信息来提取非线性模式,它更关注短期波动和复杂的变化。

传统的残差分解方法,比如Autoformer,本质上是“一刀切”的线性提取,剩下的部分一股脑全算作非线性。LiNo则不同,它采用递归的方式,一层一层地分别提取线性和非线性模式,更加精细,提取也更充分。这就好像剥洋葱,一层一层剥,最后啥也不剩,比一刀切开更能看清洋葱的结构。

就我目前的理解,LiNo的优势在于它能够更有效地分离线性和非线性模式,从而提高预测精度。文章中提到了它在多个数据集上的表现都超越了现有模型,这就很能说明问题。至于局限性,我觉得可能在于模型的复杂度,毕竟它涉及到递归分解和多个模块的组合,训练和调参的难度可能会比较大。另外,对于一些特殊类型的时间序列数据,LiNo的适用性还有待进一步验证。

主要区别在于LiNo的RRD策略,它能递归地提取线性和非线性模式,而传统方法只是简单地分离趋势项和残差项。这种递归提取使得LiNo能够更精细地捕捉数据中的复杂模式,从而提高预测精度和可解释性。

优势在于它能更准确地预测,特别是在复杂的时间序列数据上。局限性可能在于模型的复杂度较高,训练和部署的成本可能会比较高,另外对算力的要求应该也不低。

潜在优势:预测精度高,可解释性强,适用范围广。潜在局限性:计算复杂度高,参数调节可能比较复杂,需要大量的训练数据。

我觉得区别在于对“剩余部分”的处理。传统方法把线性部分提取后,剩下的都算作非线性(或者叫Seasonal),但其实里面可能还混杂着没提取干净的线性成分和噪声。LiNo的递归分解就相当于对这些“剩余部分”做了更精细的处理,把线性和非线性的成分一层一层剥离出来,最终实现更准确的预测。

Li块就像一个过滤器,它过滤掉时间序列中的线性成分,例如趋势和周期性成分。No块则像一个放大镜,它放大时间序列中的非线性成分,例如突变和复杂的季节性变化。这两个块协同工作,帮助LiNo框架更全面地理解时间序列数据。

关于Li块和No块的设计,文章里讲的挺清楚的。Li块用的是可学习的自回归模型,有点像ARIMA模型的思路,主要用来提取线性趋势。No块就更复杂一些,它结合了时域、频域和序列间依赖性等多种信息,感觉有点像Transformer的思路,主要用来提取非线性模式。这两个块一个管线性,一个管非线性,配合起来就能把时间序列里的各种模式都提取出来。