STFAN:统一时空与频域注意力,实现交通流量精准预测

STFAN交通预测新突破:统一时空频域注意力,提升中长期预测精度!

原文标题:独家丨交通预测中时空与频域注意力的统一(上)

原文作者:数据派THU

冷月清谈:

本文介绍了时空频注意力网络(STFAN)模型,旨在解决传统交通预测方法忽视交通时间序列中固有频谱特征的问题。该模型创新性地整合了注意力机制,全面捕捉交通流在空间、时间及频率维度间的隐含关联。STFAN结合动态图卷积网络与传统注意力网络,通过空间注意力模块深入挖掘道路网络空间特性,并借由时频注意力模块,在时间维度探索局部演变,在频率维度运用傅里叶变换解析周期性和持续模式。实验结果表明,STFAN在真实数据集上表现卓越,尤其在中长期交通流量预测方面显著优于现有基准模型,且消融实验证实了频域特征对预测的关键影响,充分展现其在智能交通管理中的巨大应用价值。

怜星夜思:

1、这篇文章提到了交通流量预测引入频域特征的重要性。大家觉得,在日常交通管理中,哪些现象可能特别凸显出这种周期性或频率上的规律性呢?比如哪些时间段、哪些路段会有固定的“节奏”?
2、STFAN模型结合了图神经网络(GNNs)和注意力机制。GNNs擅长处理空间关系,注意力机制能捕捉依赖性。那么,除了交通预测,这种结合方式还能在哪些领域发挥巨大作用,解决什么类型的实际问题呢?有没有什么新奇的想法?
3、STFAN模型强调中长期预测的准确性提升。在城市规划和交通政策制定上,中长期准确预测能带来哪些具体的变革或优势?有没有你觉得特别需要改变的,或者能因此变得更好的地方?

原文内容

图片
本文约7400字,建议阅读15分钟

本文阐述 STFAN 模型架构,解析时空频注意力模块设计原理。


智能交通系统高度依赖城市交通流量预测,为此已开发出多种方法。然而现有方法大多聚焦于挖掘历史交通数据中的时空关联性,却往往忽视了交通时间序列中隐藏的固有频谱特征。本文提出一种频域交通流量分析方法,通过整合注意力机制,全面捕捉空间、时间与频率维度间的隐含关联。该方法结合深度学习捕捉交通流量的空间关联性,并运用频谱分析将时间序列数据与时空域的周期性关联融合,最终构建出名为时空频注意力网络(STFAN)的创新预测模型。该网络的核心在于注意力机制的应用,通过将当前交通特征的隐状态在空间、时间和频率域进行投影映射,实现对未来隐状态的预测。该方法能够全面解析各维度与未来状态之间的关联性,最终实现对交通流量的精准预测。我们基于加州交通部公开的PeMS04和PeMS08两个数据集进行实验,评估了所提模型的性能表现。实验结果表明,该模型在预测准确性方面显著优于现有基准模型,尤其在中长期交通流量预测方面表现突出。消融实验进一步证实,交通流量的频域特征对未来交通状况具有重要影响,充分展现了该模型的实际应用价值。

关键词:交通流预测,图神经网络,注意力机制,时频注意力

通过对数据分析的整合,智能交通系统(ITS)彻底改变了城市交通管理。交通预测在ITS中扮演着关键角色,因为准确及时的预测不仅能提高道路利用效率、缓解拥堵、降低事故率,还能为城市规划和交通政策制定提供关键数据。尽管其重要性不言而喻,交通预测仍面临诸多挑战,特别是在利用历史交通流量数据揭示网络节点间时空依赖性方面。这些挑战推动了交通预测研究的持续进步。

图片在交通预测研究领域已形成两种主要方法论:模型驱动与数据驱动方法。模型驱动方法包含多种模型,如排队论、交通流动力学和微观基本图。尽管这些方法在分析交通网络的静态与动态属性方面具有独特优势,但对建模随机变量(如恶劣天气条件和交通事故)的影响存在局限性。此外,其有效性可能受采样点布局和采样频率等因素制约。因此,当处理交通网络中节点间复杂的时空依赖关系时,模型驱动方法可能难以准确预测交通流。

与传统模型驱动方法相比,数据驱动方法通过充分利用海量交通数据,为交通流分析提供了显著优势,能够更全面、有效地理解交通模式。近年来,数据驱动方法在基于机器学习的交通分析中得到广泛应用,推动了多种神经网络模型的发展,以探索交通数据中的时空依赖关系。例如,循环神经网络(RNNs)因其能有效建模时间序列数据中的短期和长期依赖关系而广受认可。


此外,图神经网络(GNNs)在分析复杂网络结构中的空间连接方面已展现出高效性。随着注意力机制的出现及其在各领域的广泛应用,交通流量预测也受益于该模型的自注意力机制,该机制擅长处理输入序列中的相互依赖关系。例如,随着Transformer模型的出现,研究人员采用多层编码器-解码器框架来建模交通序列间的依赖关系。结合图神经网络,时间与空间之间复杂的动态时空依赖关系得以有效学习。

在交通流预测领域,捕捉时空依赖性仍是一个关键挑战。从频谱理论的角度来看,交通时间序列数据不仅存在于时域,还能在频域中得到有效表征。既往研究主要关注时域中连续时间点间关系的影响,但必须认识到频域特征(如振幅、相位变化和周期性)对预测准确性同样至关重要。这些频域特征提出了一种新方法,将它们与时空依赖性相联系,这颇具重要意义。由于城市道路网络的复杂性,时空特征对交通流预测至关重要——如图1(a)所示,某一区域的交通状况会显著受到邻近区域条件的影响。同样,时域特征也至关重要,因为特定时刻的交通量会受到先前时刻条件的影响,如图所示。1(b). 此外,交通流量的周期性变化(如早晚高峰时段后趋于平稳)以及特定异常现象,会导致周期性与幅度、相位在频域中存在潜在关联,这些关联与未来交通状况相关,如图1b所示。这些复杂的时空特征会显著影响交通预测的准确性和可靠性。

本文提出了一种创新的交通预测模型——时空频注意力网络(STFAN),通过将动态图卷积网络与传统注意力网络相结合,使模型能够深入挖掘交通流中固有的空间、时间及频率特征。具体而言,该模型在时间和频率域均应用注意力机制来捕捉交通流的时间特征。在时间域中,重点分析局部时间维度的演变特征;而在频率域中,则运用傅里叶变换来检测交通数据中的频率分量、周期性特征及持续性模式。通过整合这些分析结果,该网络力求全面理解交通流在空间、时间及频率维度的规律,最终提升交通预测的准确性。本文的主要贡献如下:

  • 我们提出了一种名为时空频注意力网络(STFAN)的模型用于交通预测。通过频谱分析,将交通流的频域特征融入网络。通过引入注意力机制,我们深入挖掘交通特征在空间、时间和频率维度间的隐含关联,以期提升未来时间点的交通预测精度。

  • 我们研究传统注意力网络与GCN 模型之间的交叉学习。通过整合交通流的空间/拓扑相关性,我们将交通特征映射至 GCN 网络,借助注意力机制实现动态交互,从而深入探索交通特征的空间关联性。

  • 我们通过在两个真实数据集上进行实验来评估 STFAN 的性能。结果显示,我们的 STFAN 模型在预测准确性方面优于其他模型,特别是在中长期预测方面表现突出。此外,我们通过消融研究验证了 STFAN 的有效性,分析了不同模块对其预测能力的影响。本文其余部分组织结构如下:“问题陈述”部分正式定义交通预测问题;“时空-频率注意力网络”部分提出用于交通流量预测的时空-频率注意力网络(STFAN);“实验”部分在两个重新-

图片

图片图1空间、时间及频率域中的交通相关性。(a)空间域中交通流的相关性,其中每个节点在下一时刻对邻近节点产生影响。(b)时间域与频率域中的交通特征,其中可观察到时间域与频率域之间存在隐含相关性。


使用al-world数据集评估所提模型的性能,并与多个基线模型进行对比。最后,我们在“结论”部分总结全文。

相关工作

研究人员整合了时空交通数据,并运用图神经网络进行流量预测。这些方法能有效捕捉并建模交通中复杂的时空依赖动态。例如,先进的时空交通预测模型利用图神经网络(GNNs)从相邻节点收集信息,并通过数据驱动方法构建动态图。为更全面地捕捉交通数据的时空依赖性,图卷积网络(GCNs)也被应用,使得在道路网络的非欧几里得结构中,时间序列中的时空相关性得以表征。然而,现有众多GCNs依赖静态邻接矩阵来描述道路网络中的空间相关性,这种方法无法准确捕捉这些网络空间依赖关系的动态特性。随着注意力机制的出现及其在各领域的广泛应用,交通流预测也显著受益于该模型的自注意力机制,该机制擅长捕捉输入序列中的相互依赖关系。Guo等人提出了基于注意力的时空图卷积网络(ASTGCN),该网络利用注意力机制增强模型捕捉和投射时空依赖关系的能力。这些进展凸显了在交通分析中将深度学习与时空动态相结合的重要性和潜力。在此基础上,Xu等人开发了时空变换器网络(STTN),该网络同时考虑空间相关性和扩展时间序列,显 著 提 高 了 长 期 交 通 流 预 测 的 准 确 性。Fang 等 人 提 出 了 一 种 局 部 感 知 时 空 联 合 变 换 器(Lastjormer),该方法将时空联合注意力机制融入变换器架构,以提取传感器之间的相关性。该方法通过在多个时间槽上应用点积自注意力机制实现。近期,冯和塔西乌拉斯提出了一种自适应图时空变换器网络,该网络专门用于处理跨时间维度的影响,从而显著提升了交通预测的准确性。这些模型不仅增强了交通流预测的实际应用价值,还为实际场景提供了创新性的解决方案。

近年来,时频注意力分析领域涌现出多项研究成果。方等人提出了一种名为时频掩码自编码器(TFMAE)的有效模型。该模型通过结合基于窗口的时间掩码策略和基于振幅的频率掩码策略,利用两个基于Transformer的自编码器,获取无异常偏置的知识并提取正常信息以重建异常。杨等人则提出了一种新型自适应时频网络(ATFN),这是一种端到端的混合模型,将深度学习网络与频率模式相结合。该模型采用增强型序列到序列模型来学习复杂非平稳时间序列的趋势特征,通过频域模块捕捉时间序列数据的动态变化和复杂周期模式,并利用全连接神经网络整合趋势与周期特征进行最终预测。该研究采用离散小波变换技术提取交通序列的低频与高频分量,并通过精心设计的双通道编码器,捕捉这些分量在长周期精确模式与短周期模式下的时空关联特征。然而,频域交通数据与时空维度之间复杂的隐含关系始终是值得深入研究的课题,特别是频域中振幅与相位的复杂交互作用,以及这种时空关联对交通未来状态的影响机制,仍需进一步探索。

问题陈述

在本节中,我们正式定义交通流预测问题。

交通网络:交通网络被定义为一个无向图G=(N ,E,A),其中N表示包含N个节点的集合,E表示边的集合,A表示邻接矩阵。假设网络G中的每个检测器以均匀采样频率f采集交通数据,每个节点生成一个特征向量。每个时间片的长度f。

交通张量:我们表示为xit  ∈ R节点i在时刻t 的特征,且图片表示时刻t维度中所有节点的集合。对于给定的N个节点,观测到的M个历史流量数据为图片

交通流量预测:我们采用基于长期时间依赖性的多步预测策略来预测未来交通数据。给定由N个传感器观测到的M个历史交通条件图片obs以及一个交通网络G ,通过该网络依次输出预测数据图片,以实现多输入多输出的过程,如等式所示。


图片

时空频率注意力网络

本节将全面介绍 STFAN 模型。该模型能够动态捕捉交通数据的空间特征,同时融合时间域与频率域,从而综合呈现时空依赖关系。

模型结构

该模型的主要架构如图2所示,由堆叠的空间模块、时频模块和预测层组成。每个模块包含空间注意力模块和时频注意力模块,其中时频模块专注于学习交通数据的时间依赖性。

图片 

图2展示了 STFAN 框架的整体架构。该框架包含两个核心组件:堆叠式空间与时频注意力模块,以及预测层。每个空间与时频注意力模块均由空间注意力模块和时频注意力模块构成。

图片 

该系统同时处理时域和频域数据。这些模块协同工作,通过建模动态时频模式并结合道路网络的空间拓扑结构,捕捉交通特征中的隐性关联。预测层随后应用两个经典1 × 1卷积层,基于时空模块提取的时空特征进行多步预测。

时频模块

该模型通过构建多个堆叠式时空频模块(如图2所示),深入探究交通特征的关联性。这些模块与注意力机制相结合,旨在揭示交通特征在空间、时间及频率维度上的本质联系。通过模块堆叠技术,模型能提取深度时空特征,从而构建出稳健且全面的预测框架。

最初,输入矩阵图片通过一个1 × 1卷积层进行变换,得到image.png,其中d表示嵌入通道的数量。随后,该矩阵被输入到空间与时频(STF)模块中进行训练。对于第i个 STF 模块,输入由前一个模块i -1在时间步[t - M+1 ,... ,t]从N个节点中提取的交通特征组成,记为image.png。这些特征XSi随后与图邻接矩阵A动态融合,并共同输入到 STF 模块的空间注意力块中,以动态学习空间特征,最终得到空间特征矩阵Yi S  ,如<sp_0|>所示。


image.png


image.pngimage.png结合生成输入image.png,随后通过频域注意力块生成image.png经过一个时间特征,最时间特征image.png,如等式所示。张量 X 终,空间输入特征image.png


image.png


预测层


预测层采用两个经典卷积层来预测空间和时频模块的输出特征。具体而言,对N个节点在T个时间步长内的未来交通状况进行多步预测(记为Y  N×T ),其实现方式如下:


image.png


采用平均绝对损失进行模型训练。


image.png


其中image.png为真实交通特征。


空间注意阻滞


本节将介绍 STFAN 模型的空间注意力模块。该模块包含嵌入层、图卷积层、交叉注意力层以及信息融合门机制,具体架构如图3所示。考虑到道路空间网络节点间错综复杂的连接关系与动态变化特性,本研究采用图卷积网络(GCN)来捕捉并学习道路网络的空间关联性。此外,通过构建空间注意力层,利用注意力机制对道路网络中的交通特征进行投影,从而实现对空间交通特征间潜在关联的深度探索。注意力机制专注于关键空间特征的聚焦,并与 GCN 的图结构分析能力相结合,从而更全面地理解交通状态。下文将对模块中各组件的具体结构进行详细说明。


嵌入层


在此层中,特征向量的位置信息被整合到输入序列中。位置信息分为两种类型:一种是交通网络拓扑中的空间位置,另一种是嵌入时间序列中的时间位置。具体而言,空间位置的嵌入矩阵记为image.png,其构建和公式化为image.png。时间位置由矩阵image.png表示,同样为image.png。根据Xu等人的方法,image.png通过图邻接矩阵初始化以探索网络节点间的空间依赖性;image.png通过独热时间编码初始化以考虑时间依赖性。随后,image.pngimage.png沿时间和空间维度展平,最终得到图片S在image.png中且image.pngimage.png中。


然后,通过连接image.pngimage.png结合,最终嵌入image.pngimage.png中。此处,Ft表示一个 1x1 卷积层,将每个时间步长中每个节点的组合特征转换为d维向量。


图卷积层


该模块利用基于切比雪夫多项式近似的图卷积来获取结构感知节点特征,进而捕捉交通网络拓扑中存在的空间依赖性。通过根据指定图谱合并邻近节点数据并学习权重,生成节点特征。归一化拉普拉斯矩阵定义如下(给定邻接矩阵A和度矩阵D):image.png。此外,image.png是切比雪夫多项式的缩放拉普拉斯矩阵,其中image.png是L的最大特征值。最终结构感知节点特征通过使用k阶切比雪夫多项式近似图卷积获得。image.png的第j个通道学习方式如下:


图3 空间注意力模块的架构。该模块包含四个关键组件:位置嵌入层、图卷积层、交叉注意力层以及门控机制。


image.png


其中image.png是节点特征的第i个通道,image.png是可学习参数。

交叉注意力层


该层通过注意力机制将交通特征与图卷积网络结合,以动态学习交通特征的空间属性。首先,每个节点的输出特征image.png在通过嵌入层后,通过前馈网络投影到高维子空间,从而生成查询子空间image.png和键子空间image.png。随后,输入特征image.png通过图卷积网络生成的特征image.png也通过前馈网络投影到高维子空间,生成值子空间image.png。这些可通过以下公式计算:



此处,image.pngimage.pngimage.png分别为权重矩阵。通过缩放点积和归一化操作,计算出交通特征在动态空间中的依赖关系image.png


image.png

图片其中image.png表示节点间的动态依赖矩阵。softmax()表示将矩阵转换为概率分布。image.png表示用于防止梯度极小时softmax饱和的缩放因子。随后,交通特征间的依赖关系image.png被投影到图卷积网络计算的空间特征上。交通特征随后与空间特征结合,通过以下公式生成新特征image.png


image.png


然后将特征image.png输入到一个多层前馈神经网络中,该网络具有非线性激活函数用于训练,从而利用了特征在各种隐藏空间中的依赖性。


image.png


其中ReLU()表示非线性激活函数,image.png表示稳定化训练后的残差连接,WS0 、WS1和WS2分别指权重矩阵。为增强节点特征的预测能力,生成的数据与初始数据进行合并。该合并数据集随后输入包含非线性激活函数的多层前馈神经网络,使神经网络能够有效识别不同通道间的复杂相互关系,从而提升其预测能力。

信息融合门机制


为整合从图卷积层和注意力层学习到的空间特征,我们采用门控机制。该机制通过学习门控参数来实现特征融合:


image.png


其中sigmoid()将输入值映射到区间(0, 1),通常用于二分类问题中表示概率。fS (), fG()表示全连接层,b是偏置项。空间变换器的最终输出为:


image.png


时频注意阻滞


时频注意力模块旨在分析数据随时间推移的潜在关联。该模块通过将流量划分为时域和频域两个维度,有效捕捉并学习交通特征的隐含关联。模块的具体架构如图4所示。


图片图4 时间-频率注意力模块的架构。该模块由位置嵌入层、时间注意力层、频率层及信息融合门机制组成。


时间注意层


与空间注意力块类似,该模块的输入image.png是通过输入特征image.pngimage.png与时间嵌入image.png的拼接获得,其中image.png是一个1 × 1卷积层。随后image.png被映射到高维子空间,以生成查询子空间image.png、关键子空间image.png和价值子空间image.png。通过注意力机制聚焦序列中的关键时间点,序列数据中固有的隐藏关联得以捕捉,例如等式:


image.png


时间注意力层学习不同时间间隔序列的隐藏关联。由于单个时间序列虽然反映了特定时刻的特定信息,却无法揭示不同时刻之间可能存在的复杂关联。通过多注意力机制进一步学习时间点之间的隐藏关系,以获得特征image.png。为了更深入地探索时域数据的依赖关系,将不同数据输入具有非线性激活函数的多层前馈神经网络进行训练,如等式所示。


image.png


其中ReLu() 表示非线性激活函数,image.png指代权重矩阵。随后image.pngimage.png被合并生成image.png,该结果被传递至下一层继续学习。


频率注意层


频率注意力层主要用于学习时间序列数据的频域特征。考虑到交通数据以离散间隔采样且随时间呈现周期性模式,离散傅里叶变换(DFT)可用于在频域中分析交通数据。这种分析有助于了解交通数据在不同频率下的分布模式,并揭示频域内的潜在关联。此外,它还能探索和理解数据中存在的动态模式与周期性规律。通过等式对特征H T进行傅里叶变换,可获得新的频率特征image.png

图片 

image.png


其中image.png(k)表示频域中的k分量。image.png(n)是时域中的n采样点。M是序列的总长度,j是虚数单位。实际上,image.png(n)是一个实信号,这意味着虚部为0 。在这种情况下,等式可以展开如下:

图片 image.png


提取振幅特征图片image.png与相位图片image.pngmap  them  to  a  high-dimensional生成查询子空间image.png,关键子空间KFa 、KFp以及值子空间image.png。然后,利用等式中描述的注意力机制来学习序列中的隐藏相关性,并通过傅里叶逆变换获得新特征AFa 、AFp ,并减少时域信号image.png

图片


信息融合


为了融合特征并探索不同维度特征的隐藏依赖关系,首先需要将时域特征image.png与频域特征image.png合,生成特征image.png。随后将特征image.png输入具有非线性激活函数的多层前馈神经网络进行训练,深入探索融合特征的隐藏关联。最后,将融合特征Φ T与原始特征一起输入门机制,得到输出结果image.png


image.png


综上,我们已完整阐述了时空频注意力网络(STFAN)的整体架构,详细拆解了空间注意力模块与时频注意力模块的核心原理、运行流程及数学推导,明确了该模型如何通过整合空间拓扑、时域演变与频域周期特征,实现对交通流复杂关联的深度挖掘。在下一篇中,我们将通过真实数据集的实验验证,从性能对比、模块消融、超参数分析等多个维度,全面检验 STFAN 模型的预测效果与应用价值。


原文链接:
https://www.nature.com/articles/s41598-024-82759-z


齐国,坦琦,唐俊& 史本云

中国江苏南京南京理工大学计算机与信息工程学院。南京理工大学人工智能学院,中国南京。图片 电子邮件:benyunshi@outlook.com



编辑:于腾凯
校对:刘红利



转载须知

如需转载,请在开篇显著位置注明作者和出处(转自:数据派ID:DatapiTHU),并在文章结尾放置数据派醒目二维码。有原创标识文章,请发送【文章名称-待授权公众号名称及ID】至联系邮箱,申请白名单授权并按要求编辑。

发布后请将链接反馈至联系邮箱(见下方)。未经许可的转载以及改编者,我们将依法追究其法律责任。






关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。



新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU


就“GNNs和注意力机制结合”的应用范围而言,这种融合范式具有极强的普适性。在生物信息学领域,可用于蛋白质相互作用网络预测;在金融风控中,可构建高维交易网络,识别欺诈模式;在推荐系统中,可捕获用户-物品交互图中的复杂偏好依赖;甚至在社交网络分析、药物发现等领域,都能有效建模节点间动态且非线性的复杂关联,从而实现更精准的预测与决策。

如果中长期预测够准,那城市规划就能少走很多弯路。比如建一个新区,提前知道这片区域未来几年的交通需求和拥堵点,就能更合理地设计道路、地铁甚至共享单车的停放点。而不是等堵死了再挖路。还能帮助政府决定要不要鼓励大家多坐公交,是不是要推行限行政策,或者调整高峰时段的办公时间,从根本上解决问题,而不是每次都头痛医头脚痛医脚。