时序预测新篇章:SRS如何智能“挑选”关键信息提升准确性

SRS选择性表示空间:革新时序预测分块,自适应选择信息,显著提升模型性能。

原文标题:从 “被动切割” 到 “主动选择”:时序预测分块技术的颠覆性突破

原文作者:数据派THU

冷月清谈:

传统时间序列预测中的分块技术因其固定相邻的切割方式,常导致表示空间僵化且信息捕捉不足。华东师范大学研究者首次提出了全新的SRS(Selective Representation Space)方法,旨在构建一个选择性表示空间,从而颠覆这一局限。其核心在于选择性分块机制,模型能够自适应地从上下文时间序列中挑选出最具信息量的片段;随后,通过动态重组技术将这些关键片段重新排列组合,形成一个更有效、信息密度更高的序列用于预测。大量实验证明,搭载SRS模块的SRSNet模型在多个真实世界数据集上均表现出卓越的预测性能,且SRS模块作为即插即用组件,能显著增强现有基于分块模型的预测精度,标志着时序预测从“被动切割”迈向了“主动选择”的新范式。

怜星夜思:

1、文章里提到SRS模块选择块的时候用了Gumbel-Softmax来保证可微分。如果不用Gumbel-Softmax,或者说有没有其他方法也能实现这种“自适应选择”但同时又能让整个过程训练起来?它的优缺点又有哪些呢?
2、这个选择性分块听起来很酷,能自动挑出重要的信息。但如果遇到那种数据波动特别剧烈,或者说‘黑天鹅’事件频发的场景(比如股市),模型选出来的‘重要块’会不会不稳定,甚至导致误判?实际应用中有什么办法能规避这种风险吗?
3、研究者们强调从‘被动切割’到‘主动选择’是很大的突破。大家觉得这种‘主动选择’的思路,除了时间序列预测,还能在哪些AI领域带来变革?比如图像识别、自然语言处理或者其他地方?它和传统的注意力机制又有什么异同呢?

原文内容

图片
本文约2200字,建议阅读5分钟

本文介绍了 SRS 选择性表示空间方法,提升时间序列预测性能。


时间序列预测在借助“分块技术”方面取得了显著进展,该技术将时间序列分割成多个块(patches),以有效地将上下文语义信息保留在有利于建模长期依赖关系的表示空间中。然而,传统的分块方法将时间序列分割成相邻的块,这导致表示空间固定不变,从而使得表示的表达能力不足。


来自华东师范大学的研究者首次探索构建一个选择性表示空间,以灵活地包含最具信息量的块用于预测。具体而言,研究者提出了选择性表示空间模块 SRS,该模块利用可学习的选择性分块和动态重组技术,来自适应地选择并重新排列来自上下文时间序列的块,旨在充分利用上下文时间序列的信息,以提升基于分块模型的预测性能。研究者提出了一个简单而有效的模型 SRSNet,它由 SRS 模块和一个 MLP(多层感知机)头部(head)组成,验证了该方法的有效性。该方法可以作为一个新颖的即插即用模块,增强现有基于分块模型的性能。


【论文标题】

Enhancing Time Series Forecasting through Selective Representation Spaces: A Patch Perspective

【论文地址】

https://arxiv.org/abs/2510.14510v4

【论文源码】

https://github.com/decisionintelligence/SRSNet


概述


时间序列预测是许多领域(如金融、交通、能源)的核心任务。其主要挑战在于如何有效捕捉数据中的长期依赖关系和复杂的动态模式。传统的循环神经网络(RNNs)和卷积神经网络(CNNs)在处理长期依赖时存在固有缺陷。Transformer 模型凭借其自注意力机制,在捕捉长程依赖方面表现出色,然而,其自注意力机制的计算复杂度与序列长度的平方成正比(O(N²)),在处理长序列时计算成本高昂,效率低下。


为了降低计算复杂度,研究者引入了计算机视觉中的“分块”思想。该技术将长序列分割成较短的“块”(patches),然后在块级别上进行建模(例如,计算块之间的注意力)。这将复杂度从 O(N²) 降低到 O(M²),其中 M (块的数量) 远小于 N (原始序列长度)。


图1:相邻拼接与选择性拼接对比


然而,如上图所示,传统的分块方法是固定的、相邻的,即简单地将序列按固定大小切分。这种固定方式存在两个关键问题:


  • 表示空间固定:它强制使用一个固定的、预定义的表示空间,无法根据具体任务或数据动态调整。

  • 信息表达能力不足:这种一刀切的分割方式可能无法捕捉到最具信息量的模式。例如,一些重要的模式可能恰好跨越了块的边界,或者某些块可能包含大量冗余或噪声信息,而另一些包含关键信息的块却没有得到足够重视。


针对上述背景中提出的问题,该论文的研究者做出了以下核心贡献:


  • 首次探索选择性表示空间:研究者首次提出并探索了构建一个选择性表示空间的概念。其核心思想是:并非所有时间序列的片段都同等重要,模型应该能够自适应地选择那些对预测未来最具信息量的片段(块),并构建一个动态的表示空间。

  • 提出 SRS 模块:为了实现上述思想,研究者设计了一个全新的 SRS 模块(Selective Representation Space module)。该模块包含两个关键技术:

    • 选择性分块:这是一个可学习的机制,它不是固定地分割序列,而是能够从上下文时间序列中自适应地选择最具信息量的块。这使得模型可以根据数据内容动态调整其“观察窗口”。

    • 动态重组:在选择出关键块之后,该技术会将这些块重新排列和组合成一个新的、信息更密集的序列。这个重组后的序列构成了最终的选择性表示空间,更有利于后续模型进行预测。


SRS选择性分块


SRS 的核心创新在于它打破了传统方法一刀切的固定分块模式。它让模型能够像人一样,主动从历史数据中挑选出对未来预测最有价值的信息片段,并将它们重新组合,形成一个信息密度更高的摘要。如下图所示:


图2:SRS模块的整体流程


这个“挑选”和“重组”的过程,就是由其两大核心技术实现的,具体如下:


01、选择性分块 


图3:SRS模块的详细架构


传统方法将时间序列按固定窗口分割为相邻块,而SRS通过可学习机制动态选择最具信息量的块。具体步骤:


1. 上下文块生成


将输入序列 X∈R(L, D)(长度 L ,维度 D)分割为重叠的候选块集合 P={p1,p2,...,pn},每个块大小 P。


2. 块重要性评分


通过轻量级网络(如单层MLP)计算每个块的注意力权重:



3. 自适应选择


根据得分选择块构成子集,形成稀疏表示空间。该过程可微分,通过 Gumbel-Softmax 等技术实现端到端训练:



该方法可以避免固定分块导致的边界信息割裂(如周期性模式跨块),聚焦关键时段(如突变点、峰值)。


02、动态重组 


选择后的块 Ps 需重新组织以保留时序逻辑:


1. 位置编码注入


为每个选中块 pi 添加位置编码 E_pos(i),标记其在原序列中的时空位置。


2. 依赖关系建模


采用轻量级时序网络(如 ConvLSTM 或 Transformer Encoder)建模块间动态依赖:



3. 序列重构


将隐藏层重组为连续序列表示,作为后续预测模块的输入。



重组后的序列压缩了冗余信息,同时强化了关键时序模式的连贯性。


03、SRSnet 


SRS 模块的输出接入简单预测头(如MLP)生成最终预测:



采用两阶段优化:先预训练选择性分块参数,再联合微调整个网络。损失函数采用MAE/MSE结合注意力正则化项,防止块选择退化。


实验结果


研究者在6个真实世界时间序列数据集上进行验证,涵盖交通、能源、气象等领域(如Electricity、Traffic、ETT等),数据跨度从1年到7年,覆盖不同采样频率(小时级/分钟级)。对比12种主流方法,包括传统模型(ARIMA、Prophet)、深度学习模型(LSTM、TCN)及基于分块的先进模型(PatchTST、DLinear)。采用预测任务常用指标:MAE(平均绝对误差)、MSE(均方误差)、以及性能增益(%)。


01、总体比较 


SRSNet在所有数据集上均取得最优性能,平均较SOTA模型降低误差9.8%~15.6%。



02、SRS模块通用性验证 


SRS 作为即插即用模块,可稳定提升不同架构模型的预测精度。



03、消融研究 


选择性分块对性能贡献更大(移除后误差上升11.9%),验证动态选择关键信息的重要性。



总结


该论文的研究者提出了一种全新的选择性表示空间(Selective Representation Space, SRS)方法,用于时间序列预测。与传统的固定分块方法不同,SRS 能够自适应地选择最具信息量的序列片段,并通过动态重组技术构建更有效的表示空间。基于此,研究者设计了 SRS 模块,并进一步构建了简单而强大的 SRSNet 模型。大量实验表明,SRSNet 在多个真实世界数据集上达到了最先进的性能。此外,SRS 模块具有即插即用的特性,能够显著提升其他基于分块模型的预测精度。


编辑:于腾凯



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU

#SRS模块在剧烈波动场景的稳定性#我觉得这是个实打实的问题。想象一下,如果模型在牛市中学到了一套‘看涨’的模式,结果‘黑天鹅’一来,它还一个劲儿地选那些平时代表‘好’的块,那不就妥妥地被带进坑里了吗?我的经验是,对于这类高风险场景,仅仅依靠数据驱动的选择可能不够。也许需要结合一些领域知识(比如经济学指标,宏观政策信号)来提供“硬约束”,或者至少让模型的预测有一个置信区间,而不是给一个死板的断言。甚至可以考虑多模型集成,而不是单一依赖一个选择性模型。

针对#时序预测分块技术的突破#中关于自适应选择块的可微分问题,除了Gumbel-Softmax,另一种常见思路是使用稀疏门控(Sparse Gating)机制可微分采样的变体。例如,可以设计一个软性掩码(soft mask)来加权不同块的重要性,而不是硬性选择,这样整个过程就是连续可导的。Gumbel-Softmax的优点是能近似离散选择行为,便于优化;缺点是在某些情况下varaince较大,可能需要careful tuning,且对温度参数敏感。

关于#主动选择思路的跨领域应用#,‘主动选择’的理念与神经网络中的注意力机制(Attention Mechanism)有异曲同工之妙。注意力机制允许模型动态地加权输入的不同部分,但SRS更强调是‘硬选择’一部分块并进行重组,而非仅仅加权。在图像识别中,这可以对应于区域推荐网络(Region Proposal Networks)Vision Transformer中的patch选择,只处理图像中最具信息量的区域。在自然语言处理中,可以看作是更智能的摘要生成或关键信息提取,系统主动选择关键句子或短语。这种模式突破了传统机器学习中特征工程的静态性,向元学习(Meta-Learning)迈进,让模型学习如何学习,如何更好地选择和组织信息,潜力巨大。

啊哈,说到#时序预测分块技术的突破#里的Gumbel-Softmax,我脑子里自动播放了‘做选择,是那么的艰难!’这句歌词。这不就是让机器模拟我们在自助餐里挑菜吗?它看着一大盘菜,嘴上说‘我全都要!’(软选择),然后内心经过一系列复杂计算,最终拿了一盘它觉得最营养好吃的(硬选择)。至于其他方法嘛,大概就像是蒙着眼睛随机抓?或是请米其林大厨钦点?嘿嘿,只要能让它吃得开心(预测得准),啥法都行!

嚯,#主动选择思路的跨领域应用#?这不就是把AI从‘死读书’的笨学生,变成了‘划重点’的聪明学霸嘛!以前是老师(算法)说啥是重点就学啥(固定分块),现在是它自己能考前猜题(选择性分块),还能把猜到的重点知识点重新组合成自己的独特理解(动态重组),那考试(预测)成绩能不好吗!所以我觉得啊,以后AI不光能预测,还能帮你整理衣柜、挑约会穿搭,甚至给你推荐晚上吃啥、看啥电影,因为它会‘主动’替你选择最适合你的选项!跟注意力机制的区别嘛,注意力是‘我看看哪个小姐姐长得最好看’,而主动选择是‘我直接去搭讪那个最漂亮的’!行动力更强了!

话说回来,#时序预测分块技术的突破#提到的Gumbel-Softmax虽然能做可微分选择,但实际训练的时候会不会很抖?我之前用过类似的技术,感觉对学习率和温度参数特别敏感,一不小心就训飞了。有没有什么更‘稳’一点的方法,或者有没有人尝试过直接用强化学习来做这个块的选择?虽然复杂,但起码选择过程是真的离散的。

#主动选择思路的跨领域应用#除了本文说的时序预测,我觉得在很多‘信息过载’的场景都特别有用。比如,你让AI去分析海量新闻,它不是把所有新闻都读一遍再总结,而是主动筛选出跟某个主题最相关、最重要的几十篇来深入分析,效率就高N倍。或者在医疗影像诊断上,AI不是全图扫描,而是先‘主动’找到疑似病灶的几个区域进行高精度分析,能大大降低误诊率和提升处理速度。和注意力机制比嘛,注意力就像是‘眯着眼看全局’,给每个地方都打个分,而‘主动选择’更像是‘戴上放大镜,只看最重要的那几寸’,更聚焦、更具侵略性!

关于#SRS模块在剧烈波动场景的稳定性#问题,这确实是时间序列预测,特别是对金融类数据的一大挑战。SRS的优势在于选择性,理论上它应该能更好地聚焦于异常事件发生前后的关键模式。但如果‘黑天鹅’事件完全是前所未有的模式,模型在训练时未曾见过,那么即使是选择性机制,也可能因缺乏先验知识而失效。一种可能的规避方法是引入鲁棒性学习(Robust Learning)异常检测机制,在选择阶段额外考虑块的异质性或新颖性评分,避免过度依赖可能误导的历史模式。此外,结合因果推断的思想,尝试理解某些特定块被选择的深层原因,而非仅仅关注相关性,或许能提升其在未知风险下的判断力。

哈哈,#SRS模块在剧烈波动场景的稳定性#?这不就是说,当风暴来临时,你的‘聪明’导航系统还能不能识别出正确的避风港,而不是带着你冲向更大的浪头嘛!股市里哪有什么规律可言,都是‘听天由命’和‘反向操作’的艺术(误)。真遇到‘黑天鹅’,模型估计也懵圈了,它选出来的‘重要信息’可能就是:‘卧槽,跌啦!’然后就没然后了。规避风险?也许可以在模型旁边放个老股民,关键时刻给它一巴掌,把那些‘错误’或者‘想当然’的块直接淘汰掉!开个玩笑,但多一些人为干预和规则设定确实能增加稳定性。