MoFE-Time:融合时频域的SOTA时间序列预测模型

MoFE-Time结合时频域特征与MoE,刷新6大数据集SOTA,在时间序列预测中表现卓越,尤其在商业场景具实用价值。

原文标题:「把傅立叶塞进 MoE」——Li Auto团队发布 MoFE-Time,刷新 6 大数据集 SOTA!

原文作者:数据派THU

冷月清谈:

MoFE-Time是一种新型的时间序列预测模型,它创新性地结合了时域与频域特征,并引入了专家混合(MoE)架构,旨在提升对复杂时间序列,特别是那些同时具有周期性和特定信号先验模式的数据的预测精度。该模型通过预训练-微调范式来迁移不同周期分布的先验模式知识。其核心在于引入了时频单元(FTC)作为专家,该单元能够同时学习信号的频域(如关键频率分量及振幅)和时域特征。通过MoE路由机制,模型能构建输入信号的多维稀疏表示,从而更有效地处理数据的复杂性。
在数据处理方面,MoFE-Time采用了可逆实例归一化(RevIN)来减少非平稳性影响,并通过点嵌入与扩张卷积捕捉局部时序依赖并扩大感受野。监督机制则结合了Huber Loss处理预测误差及MoE辅助损失以优化专家选择平衡性。实验结果显示,MoFE-Time在六个公共数据集上均取得了新的SOTA(State-of-the-Art)成绩,相较主流模型Time-MoE,其MSE和MAE分别平均下降了6.95%和6.02%,显著提升了预测精度。尤其在真实业务场景的专有数据集NEV-sales上的优异表现,进一步验证了其在商业应用中的有效性和实用价值。消融实验也证实了预训练、FTC模块以及RevIN在模型性能提升中的关键作用。

怜星夜思:

1、文章提到了LLM对时间序列预测的启发,但MoFE-Time似乎走了另一条路。大家觉得现在LLM在时间序列预测领域的“水土不服”主要体现在哪些方面?是不是像MoFE-Time这样专注时频特征而非纯语言建模,才是更有效的方向?
2、MoFE-Time引入了“专家混合(MoE)”架构,这听起来有点像“集思广益”。在实际的时间序列预测任务中,专家混合模型相比传统的单一模型,有哪些特别的优势?我们应该怎么理解这里的“专家”?
3、MoFE-Time在新能源汽车销售预测这种真实业务场景下表现优异。除了销售预测,大家觉得这种结合时频域特征+MoE的模型,还能在哪些我们日常生活中不那么显眼的领域大放异彩?比如跟我们生活息息相关的场景?

原文内容

图片
本文约1700字,建议阅读5分钟
本文提出 MoFE-Time,一种结合时频域特征的专家混合(MoE)时间序列预测模型。


时间序列预测作为重要的数据建模任务,在多个领域中发挥关键作用。随着大语言模型(LLMs)的发展,将 LLMs 作为时间序列建模的基础架构受到广泛关注。然而,现有模型在预训练-微调范式下难以同时建模时间与频率特征,导致复杂时间序列(需同时捕捉周期性和信号先验模式)的预测性能不足。

本文提出 MoFE-Time,一种结合时频域特征的专家混合(MoE)时间序列预测模型,通过预训练-微调范式迁移不同周期分布的先验模式知识。模型在注意力模块后引入时频单元(FTC)作为专家,利用MoE路由机制构建输入信号的多维稀疏表示。在6个公共基准上,MoFE-Time 均取得新SOTA成绩,MSE 和 MAE 相较主流模型 Time-MoE 分别下降6.95%和6.02%。此外,在真实业务场景的专有数据集 NEV-sales 上的优异表现,验证了其商业应用有效性。”

【论文标题】
MoFE-Time: Mixture of Frequency Domain Experts for Time-Series Forecasting models
【论文地址】
https://arxiv.org/pdf/2507.06502
【论文代码】
https://github.com/alg-znsy-li/mofe-time

论文背景


时间序列数据是动态系统的基础模态,在销售、能源、气候等领域需求迫切。受LLM在自然语言处理成功的启发,基于 LLM 的时间序列建模方法(如 TimeCMA)尝试融合语言模态预训练知识,但面临语言空间与时间序列特征空间对齐的挑战。直接针对时间序列模态训练的基础模型(如参数达24亿的 Time-MoE)虽提升了预测精度,但忽略了时间序列固有的复杂周期性与非平稳性。

频域特征是信号周期性的直接表征,现有深度学习方法(如 FEDformer)通过傅里叶变换将信号转换至频域学习,但存在数学约束强、频域表示学习不足的问题。结合 MoE 架构的稀疏特性(如 Deepseek-v3)与预训练-微调范式的先验知识迁移能力,本文提出 MoFE-Time,旨在直接学习信号时频转换的内在机制,提升复杂时间序列的预测性能。

方法介绍



01 时间序列信号处理 


  • 可逆实例归一化(RevIN):通过实例特异性均值和标准差归一化输入,减少非平稳性影响,公式如下:



    输出通过对称反归一化恢复原始分布。


  • 点嵌入与扩张卷积:将浮点信号映射至高维空间,通过扩张卷积(kernel=3,dilation=2)捕捉局部时序依赖,扩大感受野。


02 时频域处理单元(FTC)模块 



  • 核心功能:同时学习信号的频域(关键频率分量(\omega_i)及振幅(a_i))和时域特征。


  • 工作机制:

    • 预训练阶段学习 个关键谐波频率( 为专家数, 为每个专家的频率数);

    • MoE路由算法选择重要谐波,通过加权和生成周期性表示:

整合时域与频域特征,输入后续层。


03 监督机制 


  • 回归损失(Huber Loss):针对预测值与真实值的差异,采用分段损失函数,减少极端值影响:



  • MoE 辅助损失(Aux Loss):优化专家选择的平衡性,公式为:



实验设置


 01 数据集 


类型
数据集
领域
时间点数量
粒度
预训练
Time-300B
多领域
3000 亿
秒至年
微调与评估
ETTh1/2
能源
17,420
1 小时
微调与评估
ETTm1/2
能源
69,680
15 分钟
微调与评估
Weather
气候
52,696
10 分钟
微调与评估
Exchangerate
金融
7,588
1 天
专有数据集
NEV-sales
新能源销售
330,000
1 天


02 模型参数与训练 


  • 预训练:AdamW 优化器(学习率 1e-3,权重衰减 0.1),batch size=2,bf16 精度,1 个 epoch;

  • 微调:学习率 5e-6,无预热,1 个 epoch,其他参数与预训练一致。


实验结果



01 公共数据集性能


MoFE-Time 在 6 个数据集上均达 SOTA,平均性能较 Time-MoE 提升:

  • MSE 降低 6.95%,MAE 降低 6.02%;
  • 例如在 ETTh1 数据集,96 步预测的 MSE 为 0.3373(Time-MoE 为 0.3604)。



02 专有数据集(NEV-sales)性能 


  • 平均MSE=0.1956,MAE=0.3284,优于 Time-MoE(MSE=0.2405,MAE=0.3628);

  • 24 步预测中,MSE=0.1688(Time-MoE 为 0.2138),验证商业场景有效性。



03 消融实验 


验证各组件作用(预测长度 96,上下文长度 512):

  • 预训练:贡献最大,移除后 MSE 平均上升 15.3%;
  • FTC 模块:移除后 MSE 平均上升 8.7%,证明频域特征的重要性;
  • RevIN:在 4/6 数据集上提升性能,尤其在 Exchange(非平稳性强)数据集。



结论


MoFE-Time 通过频域-时域特征整合与基座模型的预训练-微调范式,在时序预测任务中表现优异,尤其在商业场景(如新能源汽车销售流量预测)中具备实用价值。其设计为解决时序数据的复杂周期性和非平稳性提供了新思路。

编辑:文婧



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU


针对问题2的讨论:MoE这不就是“团队合作”嘛!一个模型单打独斗,遇到复杂问题就抓瞎。但如果我有一个“搞趋势”的专家,“搞周期”的专家,“搞异常波动”的专家,当数据一过来,路由器(MoE的路由机制)一分配:“这个是周期性强,你,周老师上!那个是突发事件,你,突校长出马!”大家各司其职,效率当然高!“专家”就是那些训练出来,专门负责处理某些特定数据特征的小型神经网络模块。就像开会,不是一个人说了算,是所有相关专家都发表意见,再综合起来。

针对问题2的讨论:MoE架构的核心优势在于它能够处理任务的异构性。在时间序列预测中,不同的时间段、不同的变量或者不同的周期模式可能需要不同的“专家”来建模。单一模型难以兼顾所有复杂情况,而MoE允许模型动态地为每个输入选择或组合不同的专家网络,从而实现更强的建模能力和更高的参数效率(因为每次只激活部分专家)。这里的“专家”可以理解为专门学习某种特定数据模式或特征的子网络,比如一个专家可能擅长捕捉长期趋势,另一个擅长周期性波动,实现了“分而治之,合而有效”的效果。

针对问题3的讨论:这种模型在能源领域肯定大有用武之地,比如电网的负荷预测,可以更精确地安排发电量,减少浪费。在农业方面,可以预测作物产量或者病虫害发生周期,指导农户种植。交通方面,可以预测某个路段的堵车时段或者共享单车的潮汐流动,优化资源配置。甚至在医疗领域,通过监测生理数据,预测疾病发作的可能性。只要是带有时间属性,且有周期性、季节性或趋势性的数据,都有它的用武之地。

针对问题3的讨论:除了销售,我觉得它还能预测你家猫主子啥时候撒娇、啥时候发脾气!毕竟猫咪情绪也有周期嘛,是不是?哈哈哈。正经点说,比如股票市场波动预测(虽然风险大),天气预报的精细化(比如预测某条街区的降水强度),甚至疫情传播趋势预测(希望用不着)。它的潜力巨大,只要你有时间序列数据,并且想知道“未来会怎样”,MoFE-Time可能都能给你个靠谱的答案。

针对问题1的讨论:我觉得LLM与时间序列结合面临的核心挑战在于模态对齐。时间序列数据具有独特的时序依赖、周期性、非平稳性等特征,而LLM的预训练主要基于文本语料,其内在的词汇表征和语义理解能力,难以直接捕捉到时间序列的数值模式和时序信息。直接将时间序列转化为文本输入LLM,会损失大量数值精度和结构信息。MoFE-Time这种直接针对时频域特征建模的方法,可能更符合时间序列数据本身的规律。

针对问题1的讨论:我感觉LLM在时间序列预测上可能有点“大材小用”或者“水土不服”,它擅长的是理解人类语言的上下文和逻辑,但在处理纯粹的数字模式、周期波动这些“冰冷”的数据时,可能就不如专门设计的模型来得精准。特别是那种高频、复杂的时序数据,LLM可能很难捕捉到极其细微的、需要专业信号处理才能发现的规律。所以,MoFE-Time这种直接从数据特性和领域知识出发的方案,可能路径更清晰,效果也更好,毕竟术业有专攻嘛。

针对问题3的讨论:我觉得这种模型简直是“生活数据管家”啊!想象一下,家里智能家居系统能预测你高峰期的用电量,冰箱能预测你某种食物的消耗周期并自动下单,甚至健身App能预测你的身体各项指标周期性变化,给你最优的运动和饮食建议。再或者公共服务领域,预测污水处理厂的入水量,城市的垃圾产生量,提前调配资源。总而言之,任何有“历史数据”和“未来预测”需求的地方,它都能“发光发热”,让我们的生活更智能、更高效。

针对问题1的讨论:LLM:我能写诗能编程,也能跟你聊八卦,但你让我预测下个月猪肉价格是涨是跌,我就有点懵圈了。人家MoFE-Time是专业的“神算子”,直接看数据的“面相”和“骨相”,比我这种只知道“之乎者也”的,当然更能掐会算啦!可能就是术业有专攻吧,就像你不会找厨子修车一样。

针对问题2的讨论:简单来说,专家混合就像是找了一个由不同专业人士组成的团队。预测天气的时候,有专门看云的“云专家”,有专门看风的“风专家”,有专门看温度的“温度专家”。当需要预测未来气温时,系统会根据当前情况,选择最相关的专家或让多个专家一起讨论。对于时间序列,可能有些数据是季节性的,有些是突发事件驱动的,单一模型很难全部搞定。MoE就是让不同的“专家模型”各司其职,各自擅长处理一类特征,然后根据输入数据,动态地选择最擅长处理当前数据的专家来做预测,这样就比一个“万精油”模型效果更好,而且资源利用也更高效,因为它每次只用一部分专家工作。