P-sLSTM：释放LSTM在长期时间序列预测中的潜力

DatapiTHU · 2025 年2 月 19 日 16:59

牛津大学提出P-sLSTM，结合补丁技术和通道独立性，提升LSTM在长期时间序列预测中的性能，达到SOTA水平。

原文标题：牛津大学等提出P-sLSTM，释放LSTM在长期时间序列预测中的潜力

原文作者：数据派THU

原文链接： http://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247652755&idx=2&sn=2a8886593802fb69bf351aa727adf4b7&

冷月清谈：

牛津大学等研究者提出了一种名为P-sLSTM的新方法，用于改进长期时间序列预测。该方法基于LSTM，并结合了补丁技术和通道独立性，以解决传统LSTM和sLSTM在长期依赖关系上的局限性。

P-sLSTM的核心改进在于两点：一是将时间序列分割成多个patch，分别处理后再整合全局信息，有效缓解了sLSTM的短记忆问题；二是引入通道独立性，独立处理多变量时间序列中的每个通道，避免过拟合并提高计算效率。

实验结果表明，P-sLSTM在多个数据集上取得了显著的性能提升，相较于原始LSTM和sLSTM，准确率提高了20%，并与其他先进模型的性能相当。研究还发现，patch大小的选择对模型性能有重要影响，过大或过小的patch都会降低预测精度。此外，P-sLSTM的计算成本较低，显示了基于RNN方法在时间序列预测中的潜力。

怜星夜思：

1、文章中提到了P-sLSTM在PEMS03数据集上的表现不如其他数据集，除了数据噪声外，还有什么其他可能的原因？
2、P-sLSTM的patching技术受到了Transformer的启发，那么它与Transformer中的patching有什么区别？
3、除了文章中提到的mLSTM，还有哪些方法可以改进LSTM/RNN的并行计算能力？

原文内容

来源：时序人‍‍

         本文约2600字，建议阅读5分钟

         本文研究者针对长期时间序列预测任务开发了一种基于 LSTM 的方法，即补丁分割长短期记忆网络（P-sLSTM）。

传统的循环神经网络架构，如长短期记忆神经网络（LSTM），在时间序列预测任务中历来扮演着重要角色。尽管最近为自然语言处理引入的 sLSTM 通过引入指数门控和记忆混合机制，对长期序列学习有益，但其潜在的短期记忆问题成为直接在时间序列预测中应用 sLSTM 的障碍。

为了解决这一问题，来自牛津大学、宾夕法尼亚大学等学校企业合作提出了一种简单而高效的算法 P-sLSTM。该算法通过在 sLSTM 中融入补丁技术和通道独立性进行构建。这些改进显著提升了 sLSTM 在时间序列预测中的性能，取得了最先进的结果。目前，该工作已被 AAAI 2025 接收。

【论文标题】

Unlocking the Power of LSTM for Long Term Time Series Forecasting

【论文地址】

https://arxiv.org/abs/2408.10006

论文背景

时间序列预测是统计学和机器学习中的一个重要领域，广泛应用于金融、交通、气象等领域。传统的循环神经网络（RNN）及其变体 LSTM 在时间序列建模中发挥了重要作用，但存在一些局限性，例如难以捕捉长期依赖关系以及缺乏动态调整存储决策的能力。

近年来，Transformer 架构在自然语言处理（NLP）中取得了巨大成功，其引入的自注意力机制能够有效捕捉长距离依赖关系。然而，LSTM 在某些应用场景中仍具有独特优势，例如较低的时间和空间复杂度以及良好的可解释性。因此，探索如何改进 LSTM 以提升其在时间序列预测中的性能具有重要意义。

最近，一种名为 sLSTM 的扩展 LSTM 版本被引入，表明人们不仅可以修订存储决策，还可以提高其存储容量，从而在各种 NLP 任务中取得了非常有竞争力的性能。鉴于在 NLP 中先进 LSTM 的成功，那能否解锁 LSTM 在时间序列预测中的潜力呢？

在本文中，研究者通过重新提出适用于多变量时间序列预测的 sLSTM，给出了肯定的答案，从而得出了新方法 P-sLSTM。本文主要贡献如下：

解释了为什么 sLSTM 框架能够提高存储容量并修订存储决策，使其适用于时间序列预测；
严格地证明了 sLSTM 不能保证具有长记忆来捕获长期依赖性。基于之前的限制，研究者应用了 patching 技术来解决这个问题，并开发了基于 LSTM 的结构 P-sLSTM，用于时间序列预测；
在各种数据集上的广泛评估表明，P-sLSTM 的性能比原始 LSTM 提高了20%的准确性，并达到了与最先进的 SOTA 模型相当的性能。

‍

sLSTM 架构回顾

最近提出的 sLSTM 架构通过引入指数门控和记忆混合机制，在 NLP 任务中表现出色。sLSTM 的主要改进包括：

指数门控：在遗忘门和输入门中使用指数激活函数替代传统的 sigmoid 函数，能够更灵活地控制信息流，并缓解梯度消失问题。
归一化状态：sLSTM 引入了归一化状态，并修改了隐藏状态的计算，有助于稳定长序列上的隐藏状态计算。
记忆混合机制：通过多头结构和块对角线循环权重矩阵，允许模型动态整合不同时间步的记忆，增强对长期依赖关系的捕捉能力。

尽管 sLSTM 在 NLP 任务中取得了成功，但直接将其应用于时间序列预测任务时仍面临挑战。论文通过理论分析和实验验证，发现 sLSTM 在某些情况下可能仍然存在短记忆问题，限制了其在长期时间序列预测中的性能。

P-sLSTM 模型

研究者将 sLSTM 定义为一个马尔可夫链过程，并分析了其记忆特性。通过扩展 Zhao 等人的工作，论文证明了 sLSTM 在某些条件下可能仍然具有短记忆特性，这表明仅靠 sLSTM 的改进可能无法完全解决长期依赖问题。

为了克服 sLSTM 的短记忆问题，研究者提出了 P-sLSTM 模型，图1展示了设计的 P-sLSTM 的整体结构，其中多变量时间序列数据被划分为不同的通道，这些通道共享相同的主干结构但独立处理。每个通道的单变量序列被分割成 patch，经过一个线性层处理，经过几个系统块后，另一个线性层产生最终预测。

图1：P-sLSTM架构概览（左上：sLSTM结构；左下：sLSTM模块）

P-sLSTM 主要改进包括：

Patching 技术：受 Transformer 架构中 patch 成功的启发，研究者将时间序列划分为多个 patch，使模型能够分别处理这些片段并最终整合全局信息，这能够有效缓解 sLSTM 的短记忆问题。

通道独立性（Channel Independence, CI）：首次将 CI 技术引入基于 RNN 的模型中，避免过拟合并提高计算效率。CI 技术允许模型独立处理多变量时间序列中的每个通道，从而更好地捕捉各通道的特征。

通过这些改进，P-sLSTM 能够更好地捕捉时间序列中的长期依赖关系，同时保持较低的时间和空间复杂度。

实验分析

01 主要预测结果

P-sLSTM 在多个数据集和预测长度设置中表现出色，获得了23次第一名和10次第二名的成绩。

P-sLSTM 在大多数情况下优于 sLSTM（90%的设置）和传统 LSTM（95%的设置），显示出其在时间序列预测中的优越性。

在 PEMS03 数据集上，P-sLSTM 的性能不如其他数据集，可能是因为该数据集非常嘈杂，而 P-sLSTM 没有包含去噪机制。

表1：展示了不同基线模型在时间序列预测任务中的量化结果

02 不同patch大小的影响

随着 patch 大小的增加，预测精度会先增加，达到一个最优解后，随着 patch 大小的进一步增加，预测精度会下降。

较小的 patch 会破坏原始时间序列的顺序信息，导致 sLSTM 无法有效处理。
较大的 patch 包含过多信息，导致过去的信息会削弱模型整合新信息的能力。

适当的 patch 大小可以显著提升模型性能，但最优的 patch 大小需要根据具体数据集进行调整。

图2：不同补丁尺寸对P-sLSTM在Weather和Electricity数据集上性能的影响

03 不同回溯窗口大小的影响

与 LSTM 和 sLSTM 相比，P-sLSTM 通过 patching 机制能够更好地捕捉长期依赖关系，因此随着回溯窗口的增加，预测精度会提高。

图3：在Weather和Electricity数据集上，长期预测（T=720）中，具有不同回溯窗口大小的模型的均方误差（MSE）结果

04 记忆混合的消融研究

记忆混合机制略微提升了模型性能，但提升幅度有限。记忆混合机制有助于模型选择重要的过去时间信息，但其对性能的提升作用有限。

表2：在Weather数据集上关于记忆混合的消融研究

05 通道独立性的重要性

通道独立（CI）策略的 P-sLSTM 在训练误差上略高于通道混合（CM）策略，但在验证误差和测试误差上均低于 CM 策略。CI 可以显著防止过拟合，提高模型的泛化能力。

表3：在P-sLSTM上对比CI与CM策略

06 时间效率研究

P-sLSTM 具有最低的计算成本，这表明基于 RNN 的方法在时间序列预测中的潜力。

表4：P-sLSTM和iTransformer在天气和ETTm1数据集上的计算效率

总结

本文研究者针对长期时间序列预测任务开发了一种基于 LSTM 的方法，即补丁分割长短期记忆网络（P-sLSTM）。结合了自然语言处理中的 sLSTM 框架与补丁分割技术，以解决原始 LSTM 或一般 RNN 可能存在的短期记忆问题，同时采用通道独立技术来避免过拟合问题。

这项工作将激发对基于 RNN/LSTM 的模型在时间序列预测任务中的新一轮探索，并为 RNN 结构及其应用提供有价值的见解。未来的工作可能会考虑使用更复杂的补丁分割技术，以尽可能保留时间序列的原始周期性。此外，LSTM/RNN 仍存在一些已知局限性，例如它们无法进行并行计算。为了帮助模型实现并行计算，可以考虑添加 mLSTM，这是另一种 LSTM 结构，能够在时间序列问题中进行并行计算。

编辑：王菁

‍‍‍

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU

CrystalBear411 · 2025 年3 月 4 日 18:29

有没有可能P-sLSTM的参数设置在PEMS03数据集上不是最优的？可以尝试更广泛的参数搜索，或者使用一些自动调参技术来找到最佳参数组合。

WhisperingPeacock073 · 2025 年3 月 5 日 06:37

可以尝试将LSTM/RNN与CNN结合，利用CNN的并行计算能力来提高整体效率。

Blaze03m · 2025 年3 月 5 日 19:12

我觉得一个关键的区别在于Transformer的patch embedding会将每个patch转换成一个向量，而P-sLSTM的patch仍然是一个时间序列片段，处理方式更像是滑动窗口。

GlowingStarfish420 · 2025 年3 月 6 日 08:42

题主提到了mLSTM，我再补充一个QRNN (Quasi-Recurrent Neural Network)，它将卷积操作与RNN的循环特性结合起来，也能够实现并行计算。

Lunar391e · 2025 年3 月 6 日 22:38

我觉得可能是PEMS03数据集中的时间模式比较复杂，P-sLSTM的patching机制可能不足以捕捉这种复杂性。可以考虑更精细的patching策略，或者结合其他时间序列分析方法来改进模型。

Zenith52p · 2025 年3 月 7 日 23:06

除了数据噪声之外，PEMS03数据集本身的特性可能也是一个原因。PEMS03是关于加州交通流量的数据集，交通流量数据通常具有很强的空间相关性，而P-sLSTM模型目前的设计可能没有充分考虑到这一点。未来可以尝试在模型中加入空间信息处理模块，或许可以进一步提高在PEMS03数据集上的性能。

Lunar391e · 2025 年3 月 9 日 07:41

可以使用SRU (Simple Recurrent Unit)，它是一种比LSTM计算更简单的RNN变体，更容易进行并行化。

StarryUnicorn587 · 2025 年3 月 9 日 17:06

Transformer中的patching通常是将图像等二维数据分割成小的patch，而P-sLSTM的patching是将一维的时间序列分割成片段。虽然两者都是将数据分割成小块来处理，但处理的对象和方式有所不同。

Crest196j · 2025 年3 月 10 日 14:43

Transformer 中的 patching 更加关注空间信息，而 P-sLSTM 则更关注时间维度。虽然两者都使用了 patching 技术，但在应用和目标上存在差异。