牛津大学提出P-sLSTM,结合补丁技术和通道独立性,提升LSTM在长期时间序列预测中的性能,达到SOTA水平。
原文标题:牛津大学等提出P-sLSTM,释放LSTM在长期时间序列预测中的潜力
原文作者:数据派THU
冷月清谈:
P-sLSTM的核心改进在于两点:一是将时间序列分割成多个patch,分别处理后再整合全局信息,有效缓解了sLSTM的短记忆问题;二是引入通道独立性,独立处理多变量时间序列中的每个通道,避免过拟合并提高计算效率。
实验结果表明,P-sLSTM在多个数据集上取得了显著的性能提升,相较于原始LSTM和sLSTM,准确率提高了20%,并与其他先进模型的性能相当。研究还发现,patch大小的选择对模型性能有重要影响,过大或过小的patch都会降低预测精度。此外,P-sLSTM的计算成本较低,显示了基于RNN方法在时间序列预测中的潜力。
怜星夜思:
2、P-sLSTM的patching技术受到了Transformer的启发,那么它与Transformer中的patching有什么区别?
3、除了文章中提到的mLSTM,还有哪些方法可以改进LSTM/RNN的并行计算能力?
原文内容
【论文标题】
Unlocking the Power of LSTM for Long Term Time Series Forecasting
【论文地址】
https://arxiv.org/abs/2408.10006
论文背景
时间序列预测是统计学和机器学习中的一个重要领域,广泛应用于金融、交通、气象等领域。传统的循环神经网络(RNN)及其变体 LSTM 在时间序列建模中发挥了重要作用,但存在一些局限性,例如难以捕捉长期依赖关系以及缺乏动态调整存储决策的能力。
近年来,Transformer 架构在自然语言处理(NLP)中取得了巨大成功,其引入的自注意力机制能够有效捕捉长距离依赖关系。然而,LSTM 在某些应用场景中仍具有独特优势,例如较低的时间和空间复杂度以及良好的可解释性。因此,探索如何改进 LSTM 以提升其在时间序列预测中的性能具有重要意义。
最近,一种名为 sLSTM 的扩展 LSTM 版本被引入,表明人们不仅可以修订存储决策,还可以提高其存储容量,从而在各种 NLP 任务中取得了非常有竞争力的性能。鉴于在 NLP 中先进 LSTM 的成功,那能否解锁 LSTM 在时间序列预测中的潜力呢?
在本文中,研究者通过重新提出适用于多变量时间序列预测的 sLSTM,给出了肯定的答案,从而得出了新方法 P-sLSTM。本文主要贡献如下:
-
解释了为什么 sLSTM 框架能够提高存储容量并修订存储决策,使其适用于时间序列预测;
-
严格地证明了 sLSTM 不能保证具有长记忆来捕获长期依赖性。基于之前的限制,研究者应用了 patching 技术来解决这个问题,并开发了基于 LSTM 的结构 P-sLSTM,用于时间序列预测;
-
在各种数据集上的广泛评估表明,P-sLSTM 的性能比原始 LSTM 提高了20%的准确性,并达到了与最先进的 SOTA 模型相当的性能。
sLSTM 架构回顾
最近提出的 sLSTM 架构通过引入指数门控和记忆混合机制,在 NLP 任务中表现出色。sLSTM 的主要改进包括:
-
指数门控:在遗忘门和输入门中使用指数激活函数替代传统的 sigmoid 函数,能够更灵活地控制信息流,并缓解梯度消失问题。
-
归一化状态:sLSTM 引入了归一化状态,并修改了隐藏状态的计算,有助于稳定长序列上的隐藏状态计算。
-
记忆混合机制:通过多头结构和块对角线循环权重矩阵,允许模型动态整合不同时间步的记忆,增强对长期依赖关系的捕捉能力。
尽管 sLSTM 在 NLP 任务中取得了成功,但直接将其应用于时间序列预测任务时仍面临挑战。论文通过理论分析和实验验证,发现 sLSTM 在某些情况下可能仍然存在短记忆问题,限制了其在长期时间序列预测中的性能。
P-sLSTM 模型
研究者将 sLSTM 定义为一个马尔可夫链过程,并分析了其记忆特性。通过扩展 Zhao 等人的工作,论文证明了 sLSTM 在某些条件下可能仍然具有短记忆特性,这表明仅靠 sLSTM 的改进可能无法完全解决长期依赖问题。
为了克服 sLSTM 的短记忆问题,研究者提出了 P-sLSTM 模型,图1展示了设计的 P-sLSTM 的整体结构,其中多变量时间序列数据被划分为不同的通道,这些通道共享相同的主干结构但独立处理。每个通道的单变量序列被分割成 patch,经过一个线性层处理,经过几个系统块后,另一个线性层产生最终预测。
图1:P-sLSTM架构概览(左上:sLSTM结构;左下:sLSTM模块)
P-sLSTM 主要改进包括:
-
Patching 技术:受 Transformer 架构中 patch 成功的启发,研究者将时间序列划分为多个 patch,使模型能够分别处理这些片段并最终整合全局信息,这能够有效缓解 sLSTM 的短记忆问题。
-
通道独立性(Channel Independence, CI):首次将 CI 技术引入基于 RNN 的模型中,避免过拟合并提高计算效率。CI 技术允许模型独立处理多变量时间序列中的每个通道,从而更好地捕捉各通道的特征。
通过这些改进,P-sLSTM 能够更好地捕捉时间序列中的长期依赖关系,同时保持较低的时间和空间复杂度。
实验分析
随着 patch 大小的增加,预测精度会先增加,达到一个最优解后,随着 patch 大小的进一步增加,预测精度会下降。
-
较小的 patch 会破坏原始时间序列的顺序信息,导致 sLSTM 无法有效处理。
-
较大的 patch 包含过多信息,导致过去的信息会削弱模型整合新信息的能力。
适当的 patch 大小可以显著提升模型性能,但最优的 patch 大小需要根据具体数据集进行调整。
图2:不同补丁尺寸对P-sLSTM在Weather和Electricity数据集上性能的影响
03 不同回溯窗口大小的影响
与 LSTM 和 sLSTM 相比,P-sLSTM 通过 patching 机制能够更好地捕捉长期依赖关系,因此随着回溯窗口的增加,预测精度会提高。
记忆混合机制略微提升了模型性能,但提升幅度有限。记忆混合机制有助于模型选择重要的过去时间信息,但其对性能的提升作用有限。
05 通道独立性的重要性
通道独立(CI)策略的 P-sLSTM 在训练误差上略高于通道混合(CM) 策略,但在验证误差和测试误差上均低于 CM 策略。CI 可以显著防止过拟合,提高模型的泛化能力。
本文研究者针对长期时间序列预测任务开发了一种基于 LSTM 的方法,即补丁分割长短期记忆网络(P-sLSTM)。结合了自然语言处理中的 sLSTM 框架与补丁分割技术,以解决原始 LSTM 或一般 RNN 可能存在的短期记忆问题,同时采用通道独立技术来避免过拟合问题。
这项工作将激发对基于 RNN/LSTM 的模型在时间序列预测任务中的新一轮探索,并为 RNN 结构及其应用提供有价值的见解。未来的工作可能会考虑使用更复杂的补丁分割技术,以尽可能保留时间序列的原始周期性。此外,LSTM/RNN 仍存在一些已知局限性,例如它们无法进行并行计算。为了帮助模型实现并行计算,可以考虑添加 mLSTM,这是另一种 LSTM 结构,能够在时间序列问题中进行并行计算。