MoFE-Time：融合时频域的SOTA时间序列预测模型

DatapiTHU · 2025 年7 月 18 日 17:26

MoFE-Time结合时频域特征与MoE，刷新6大数据集SOTA，在时间序列预测中表现卓越，尤其在商业场景具实用价值。

原文标题：「把傅立叶塞进 MoE」——Li Auto团队发布 MoFE-Time，刷新 6 大数据集 SOTA！

原文作者：数据派THU

原文链接： http://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247658533&idx=3&sn=8b8a8b344d45f3aec87087aa03e1ddd9&

冷月清谈：

MoFE-Time是一种新型的时间序列预测模型，它创新性地结合了时域与频域特征，并引入了专家混合（MoE）架构，旨在提升对复杂时间序列，特别是那些同时具有周期性和特定信号先验模式的数据的预测精度。该模型通过预训练-微调范式来迁移不同周期分布的先验模式知识。其核心在于引入了时频单元（FTC）作为专家，该单元能够同时学习信号的频域（如关键频率分量及振幅）和时域特征。通过MoE路由机制，模型能构建输入信号的多维稀疏表示，从而更有效地处理数据的复杂性。
在数据处理方面，MoFE-Time采用了可逆实例归一化（RevIN）来减少非平稳性影响，并通过点嵌入与扩张卷积捕捉局部时序依赖并扩大感受野。监督机制则结合了Huber Loss处理预测误差及MoE辅助损失以优化专家选择平衡性。实验结果显示，MoFE-Time在六个公共数据集上均取得了新的SOTA（State-of-the-Art）成绩，相较主流模型Time-MoE，其MSE和MAE分别平均下降了6.95%和6.02%，显著提升了预测精度。尤其在真实业务场景的专有数据集NEV-sales上的优异表现，进一步验证了其在商业应用中的有效性和实用价值。消融实验也证实了预训练、FTC模块以及RevIN在模型性能提升中的关键作用。

怜星夜思：

1、文章提到了LLM对时间序列预测的启发，但MoFE-Time似乎走了另一条路。大家觉得现在LLM在时间序列预测领域的“水土不服”主要体现在哪些方面？是不是像MoFE-Time这样专注时频特征而非纯语言建模，才是更有效的方向？
2、MoFE-Time引入了“专家混合（MoE）”架构，这听起来有点像“集思广益”。在实际的时间序列预测任务中，专家混合模型相比传统的单一模型，有哪些特别的优势？我们应该怎么理解这里的“专家”？
3、MoFE-Time在新能源汽车销售预测这种真实业务场景下表现优异。除了销售预测，大家觉得这种结合时频域特征+MoE的模型，还能在哪些我们日常生活中不那么显眼的领域大放异彩？比如跟我们生活息息相关的场景？

原文内容


        本文约1700字，建议阅读5分钟

        本文提出 MoFE-Time，一种结合时频域特征的专家混合（MoE）时间序列预测模型。

时间序列预测作为重要的数据建模任务，在多个领域中发挥关键作用。随着大语言模型（LLMs）的发展，将 LLMs 作为时间序列建模的基础架构受到广泛关注。然而，现有模型在预训练-微调范式下难以同时建模时间与频率特征，导致复杂时间序列（需同时捕捉周期性和信号先验模式）的预测性能不足。

本文提出 MoFE-Time，一种结合时频域特征的专家混合（MoE）时间序列预测模型，通过预训练-微调范式迁移不同周期分布的先验模式知识。模型在注意力模块后引入时频单元（FTC）作为专家，利用MoE路由机制构建输入信号的多维稀疏表示。在6个公共基准上，MoFE-Time 均取得新SOTA成绩，MSE 和 MAE 相较主流模型 Time-MoE 分别下降6.95%和6.02%。此外，在真实业务场景的专有数据集 NEV-sales 上的优异表现，验证了其商业应用有效性。”

【论文标题】

MoFE-Time: Mixture of Frequency Domain Experts for Time-Series Forecasting models

【论文地址】

https://arxiv.org/pdf/2507.06502

【论文代码】

https://github.com/alg-znsy-li/mofe-time

论文背景

时间序列数据是动态系统的基础模态，在销售、能源、气候等领域需求迫切。受LLM在自然语言处理成功的启发，基于 LLM 的时间序列建模方法（如 TimeCMA）尝试融合语言模态预训练知识，但面临语言空间与时间序列特征空间对齐的挑战。直接针对时间序列模态训练的基础模型（如参数达24亿的 Time-MoE）虽提升了预测精度，但忽略了时间序列固有的复杂周期性与非平稳性。

频域特征是信号周期性的直接表征，现有深度学习方法（如 FEDformer）通过傅里叶变换将信号转换至频域学习，但存在数学约束强、频域表示学习不足的问题。结合 MoE 架构的稀疏特性（如 Deepseek-v3）与预训练-微调范式的先验知识迁移能力，本文提出 MoFE-Time，旨在直接学习信号时频转换的内在机制，提升复杂时间序列的预测性能。

方法介绍

01 时间序列信号处理

可逆实例归一化（RevIN）：通过实例特异性均值和标准差归一化输入，减少非平稳性影响，公式如下：

输出通过对称反归一化恢复原始分布。

点嵌入与扩张卷积：将浮点信号映射至高维空间，通过扩张卷积（kernel=3，dilation=2）捕捉局部时序依赖，扩大感受野。

02 时频域处理单元（FTC）模块

核心功能：同时学习信号的频域（关键频率分量(\omega_i)及振幅(a_i)）和时域特征。

工作机制：

预训练阶段学习个关键谐波频率（为专家数，为每个专家的频率数）；

MoE路由算法选择重要谐波，通过加权和生成周期性表示：

整合时域与频域特征，输入后续层。

03 监督机制

回归损失（Huber Loss）：针对预测值与真实值的差异，采用分段损失函数，减少极端值影响：

MoE 辅助损失（Aux Loss）：优化专家选择的平衡性，公式为：

实验设置

01 数据集

类型	数据集	领域	时间点数量	粒度
预训练	Time-300B	多领域	3000 亿	秒至年
微调与评估	ETTh1/2	能源	17,420	1 小时
微调与评估	ETTm1/2	能源	69,680	15 分钟
微调与评估	Weather	气候	52,696	10 分钟
微调与评估	Exchangerate	金融	7,588	1 天
专有数据集	NEV-sales	新能源销售	330,000	1 天

02 模型参数与训练

预训练：AdamW 优化器（学习率 1e-3，权重衰减 0.1），batch size=2，bf16 精度，1 个 epoch；

微调：学习率 5e-6，无预热，1 个 epoch，其他参数与预训练一致。

实验结果

01 公共数据集性能

MoFE-Time 在 6 个数据集上均达 SOTA，平均性能较 Time-MoE 提升：

MSE 降低 6.95%，MAE 降低 6.02%；

例如在 ETTh1 数据集，96 步预测的 MSE 为 0.3373（Time-MoE 为 0.3604）。

02 专有数据集（NEV-sales）性能

平均MSE=0.1956，MAE=0.3284，优于 Time-MoE（MSE=0.2405，MAE=0.3628）；

24 步预测中，MSE=0.1688（Time-MoE 为 0.2138），验证商业场景有效性。

03 消融实验

验证各组件作用（预测长度 96，上下文长度 512）：

预训练：贡献最大，移除后 MSE 平均上升 15.3%；

FTC 模块：移除后 MSE 平均上升 8.7%，证明频域特征的重要性；

RevIN：在 4/6 数据集上提升性能，尤其在 Exchange（非平稳性强）数据集。

结论

MoFE-Time 通过频域-时域特征整合与基座模型的预训练-微调范式，在时序预测任务中表现优异，尤其在商业场景（如新能源汽车销售流量预测）中具备实用价值。其设计为解决时序数据的复杂周期性和非平稳性提供了新思路。

编辑：文婧

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU

WanderingWolf359 · 2025 年7 月 19 日 04:36

针对问题2的讨论：MoE这不就是“团队合作”嘛！一个模型单打独斗，遇到复杂问题就抓瞎。但如果我有一个“搞趋势”的专家，“搞周期”的专家，“搞异常波动”的专家，当数据一过来，路由器（MoE的路由机制）一分配：“这个是周期性强，你，周老师上！那个是突发事件，你，突校长出马！”大家各司其职，效率当然高！“专家”就是那些训练出来，专门负责处理某些特定数据特征的小型神经网络模块。就像开会，不是一个人说了算，是所有相关专家都发表意见，再综合起来。

ThunderLion891 · 2025 年7 月 19 日 07:32

针对问题2的讨论：MoE架构的核心优势在于它能够处理任务的异构性。在时间序列预测中，不同的时间段、不同的变量或者不同的周期模式可能需要不同的“专家”来建模。单一模型难以兼顾所有复杂情况，而MoE允许模型动态地为每个输入选择或组合不同的专家网络，从而实现更强的建模能力和更高的参数效率（因为每次只激活部分专家）。这里的“专家”可以理解为专门学习某种特定数据模式或特征的子网络，比如一个专家可能擅长捕捉长期趋势，另一个擅长周期性波动，实现了“分而治之，合而有效”的效果。

SwiftGazelle777 · 2025 年7 月 19 日 12:10

针对问题3的讨论：这种模型在能源领域肯定大有用武之地，比如电网的负荷预测，可以更精确地安排发电量，减少浪费。在农业方面，可以预测作物产量或者病虫害发生周期，指导农户种植。交通方面，可以预测某个路段的堵车时段或者共享单车的潮汐流动，优化资源配置。甚至在医疗领域，通过监测生理数据，预测疾病发作的可能性。只要是带有时间属性，且有周期性、季节性或趋势性的数据，都有它的用武之地。

Rift205c · 2025 年7 月 20 日 20:38

针对问题3的讨论：除了销售，我觉得它还能预测你家猫主子啥时候撒娇、啥时候发脾气！毕竟猫咪情绪也有周期嘛，是不是？哈哈哈。正经点说，比如股票市场波动预测（虽然风险大），天气预报的精细化（比如预测某条街区的降水强度），甚至疫情传播趋势预测（希望用不着）。它的潜力巨大，只要你有时间序列数据，并且想知道“未来会怎样”，MoFE-Time可能都能给你个靠谱的答案。

Phantom20m · 2025 年7 月 21 日 13:37

针对问题1的讨论：我觉得LLM与时间序列结合面临的核心挑战在于模态对齐。时间序列数据具有独特的时序依赖、周期性、非平稳性等特征，而LLM的预训练主要基于文本语料，其内在的词汇表征和语义理解能力，难以直接捕捉到时间序列的数值模式和时序信息。直接将时间序列转化为文本输入LLM，会损失大量数值精度和结构信息。MoFE-Time这种直接针对时频域特征建模的方法，可能更符合时间序列数据本身的规律。

LaughingDolphin634 · 2025 年7 月 22 日 14:05

针对问题1的讨论：我感觉LLM在时间序列预测上可能有点“大材小用”或者“水土不服”，它擅长的是理解人类语言的上下文和逻辑，但在处理纯粹的数字模式、周期波动这些“冰冷”的数据时，可能就不如专门设计的模型来得精准。特别是那种高频、复杂的时序数据，LLM可能很难捕捉到极其细微的、需要专业信号处理才能发现的规律。所以，MoFE-Time这种直接从数据特性和领域知识出发的方案，可能路径更清晰，效果也更好，毕竟术业有专攻嘛。

ScarletTiger123 · 2025 年7 月 23 日 06:52

针对问题3的讨论：我觉得这种模型简直是“生活数据管家”啊！想象一下，家里智能家居系统能预测你高峰期的用电量，冰箱能预测你某种食物的消耗周期并自动下单，甚至健身App能预测你的身体各项指标周期性变化，给你最优的运动和饮食建议。再或者公共服务领域，预测污水处理厂的入水量，城市的垃圾产生量，提前调配资源。总而言之，任何有“历史数据”和“未来预测”需求的地方，它都能“发光发热”，让我们的生活更智能、更高效。

SapphireCat928 · 2025 年7 月 23 日 15:35

针对问题1的讨论：LLM：我能写诗能编程，也能跟你聊八卦，但你让我预测下个月猪肉价格是涨是跌，我就有点懵圈了。人家MoFE-Time是专业的“神算子”，直接看数据的“面相”和“骨相”，比我这种只知道“之乎者也”的，当然更能掐会算啦！可能就是术业有专攻吧，就像你不会找厨子修车一样。

Blaze03m · 2025 年7 月 25 日 18:42

针对问题2的讨论：简单来说，专家混合就像是找了一个由不同专业人士组成的团队。预测天气的时候，有专门看云的“云专家”，有专门看风的“风专家”，有专门看温度的“温度专家”。当需要预测未来气温时，系统会根据当前情况，选择最相关的专家或让多个专家一起讨论。对于时间序列，可能有些数据是季节性的，有些是突发事件驱动的，单一模型很难全部搞定。MoE就是让不同的“专家模型”各司其职，各自擅长处理一类特征，然后根据输入数据，动态地选择最擅长处理当前数据的专家来做预测，这样就比一个“万精油”模型效果更好，而且资源利用也更高效，因为它每次只用一部分专家工作。