时序大模型瘦身新思路:上海交大、阿里提出剪枝后再微调的后训练范式

上海交大&阿里提出时序基模后训练新范式:先剪枝再微调,有效减少模型参数,提升预测精度。研究揭示模型稀疏性和冗余性,为时序基模应用提供新方向。

原文标题:时序大模型参数减少预测更好?上海交大、阿里推出时序基模后训练新范式

原文作者:数据派THU

冷月清谈:

上海交大和阿里的研究者发现,在全样本场景下,现有预训练时序基模即使经过微调,也难以显著优于传统基线模型PatchTST。研究者通过实验观察到时序基模的计算存在稀疏性和参数存在冗余性。基于此,他们提出了“先剪枝再微调”的后训练范式,即首先移除不重要的网络结构,然后让微调专注于与下游任务相关的、更紧凑的参数子空间,从而实现“Less is More”的效果。实验结果表明,该方法能够有效提升时序基模的预测精度,并在多个基准数据集上取得了优于传统微调方法的效果。该研究强调了时序基模后训练阶段的必要性,为时序基模的应用提供了新的思路和方向。

怜星夜思:

1、文章提到“时序预测的天然特性:由于概念漂移,大量时序模式会短暂出现并衰退”,那么在实际应用中,我们应该如何判断和应对这种概念漂移现象?除了文中的剪枝方法,还有没有其他有效的策略?
2、文章中提到“时序基模出色的零样本性能得益于只选择一部分下游任务相关的参数参与计算”,那么这种选择参数的机制是如何实现的?能否进一步解释一下,这种机制对于提升零样本性能的具体作用?
3、文章提出的“先剪枝再微调”范式,在实际应用中可能面临哪些挑战?例如,如何选择合适的剪枝比例?剪枝过程是否会破坏模型的泛化能力?

原文内容

来源:时序人
本文约3000字,建议阅读5分钟
时序基模是否足够优越于传统基线?


大规模预训练是近期时序领域的研究热点,涌现了一批时序预测基础模型(简称:时序基模,Time Series Foundation Model)。这类预训练模型可以不经微调直接应用于下游数据集,取得不错的零样本(zero-shot)预测表现。不过,实际生产中时序数据会不断新增,不需人工标注即可为时序预测积累出充足训练样本。因此,有必要在全样本(full-shot)场景下审视:时序基模是否足够优越于传统基线?


最近,来自上海交大和阿里的研究者发现公平比较下,时序基模即便经过微调也依然难以在常用基准上显著优于基线 PatchTST,专业化时序基模成为关键难题。为此,研究者们提出了“先剪枝再微调”的后训练(post-training)范式,移除不重要的网络结构,让微调专注于与下游任务相关、更紧凑的参数子空间。实验中,研究者实现了“Less is More”的效果:7种时序基模裁减掉一半参数,只微调剩余参数,取得了比微调完整预训练模型更低的预测误差,在6项基准数据集上将时序基模对 PatchTST 的胜率提高到了 100%。



【论文标题】

Less is More: Unlocking Specialization of Time Series Foundation Models via Structured Pruning

【论文地址】

https://arxiv.org/pdf/2505.23195


实验发现

研究者以 Weather 和 ETTm1 数据集为例,对 TTM-A、Time-MoE、Moirai、Chronos-bolt-base、TimesFM 等最新的时序基模进行实验分析,得到了三点重要观察。


01 观察一:现有时序基模难以稳定优于传统基线 

图1 与全样本训练的PatchTST(红线)相比,时序基模预测96、192、336、720步的平均相对Test MSE(%)


如图1所示,Chronos等流行的时序基模参数规模虽大,但零样本预测误差(Pretrained)经常高于从头训练的PatchTST,不能彻底克服预训练数据和下游数据之间的数据分布差异。即便经过微调提升表现,时序基模全样本性能(Fine-tuned)仍然无法取得显著优势。


这并不否认预训练的价值(毕竟零样本场景表现不错),只是说明缺少更好的手段有效利用预训练好的时序基模。为了有效适配下游任务,首先需要解答的是:预训练提供了什么值得保留的先验知识?为此,研究者在下文中进一步分析了时序基模的内在机制。


02 观察二:时序基模的计算存在稀疏性 

对于基于Transformer的时序基模,研究者统计了每个attention head在整个下游数据集上的平均相对输出模长,定义为  其中 表示第i个头的单个输出向量, 表示对应token所在注意力层的输入残差。


如图2所示,相比于PatchTST模型,Moirai、Time-MoE等基模有很多attention head对残差只做了微小的改动(例如相对模长<1%)。


图2 不同平均相对输出模长下的注意力头累计占比


对于每个 FFN 层,研究者统计了每个中间通道在整个下游数据集上的激活概率,即激活值大于0所占的比例。


如图3所示,相比于PatchTST至少20%的FFN通道被激活,预训练的时序基模呈现稀疏激活的特性,例如Chronos和Time-MoE有20-60%的FFN通道从未在下游数据上被激活。如果将激活概率小于5%的中间通道定义为稀疏通道,如图4所示,许多时序基模的各层FFN存在数量相当可观的稀疏通道,特别是Chronos的数层FFN只有5%的通道经常被使用。值得注意的是,Chronos等模型没有实现Sparse MoE的模型结构设计,但模型通过预训练也能学会稀疏计算,因此继续开发其MoE版本或许没有太大价值。


图3 不同激活概率的FFN中间通道累计占比


图4 不同FFN层的稀疏通道占比


总体来看,预训练模型越大,稀疏性越强;不同下游数据上有不同的稀疏分布,有不同的参数被激活。研究者认为,时序基模出色的零样本性能得益于只选择一部分下游任务相关的参数参与计算,这是预训练中获得的有效先验知识。


03 观察三:时序基模的参数存在冗余性 

为了更全面地发现模型中任务无关的参数,研究者进一步着眼于任意线性变换层的输入和输出通道。如果移除某个通道(输出值始终mask为0)不会导致显著的预测误差变化,可以说明该通道在模型中是冗余的。因此,研究者将各通道的重要性分数定义为原模型预测误差和移除该通道后预测误差之间的变化绝对值,然后基于二阶泰勒展开进行高效估计。低重要性分数囊括了此前讨论的稀疏情况,因为如果某通道输出经常微乎其微,那么其重要性分数自然很小。


在图5的统计结果中,相比于PatchTST,所有时序基模只有极少数通道比较重要,其他大部分通道单独移除后不会引起明显的预测损失变化,对模型来说是冗余的。这符合时序预测的天然特性:由于概念漂移,大量时序模式会短暂出现并衰退,只有很少的潜在特征能够保持长期有效性,没有必要挖掘高度复杂的时序因子。


图5 通道重要性分数的(左)箱线图和(右)累计占比图


先剪枝再微调

研究者认为,时序基模的稀疏性和冗余性是预训练中习得的、关于时序预测的宝贵先验知识,不应该在微调中被干扰;否则,微调所有模型参数权重容易出现过拟合问题,过度挖掘了大量过时因子或噪声信号。


因此,研究者将时序基模专业化解耦为两个阶段:结构专业化和权重专业化。其中,结构专业化可以通过一套简单但有效的结构化剪枝方法来实现:从下游训练集采样数据并进行时序预测,评估各通道重要性分数,移除最不重要的少量通道,下一批次数据上重新评估未剪枝通道的重要性分数,结合上一次的分数进行指数滑动平均(EMA),继续进行剪枝......直至一个epoch结束或者剪枝模型在验证集上性能下降。剩下未被剪枝的模型参数放到训练集上进行参数权重微调。


实验效果


01 全样本预测性能对比 

研究者在 ETT、Weather、Electricity 等常用基准数据集上执行了长期预测的实验。如 Table 1 所示,先剪枝再微调在大部分任务上相比传统微调取得更低的预测误差,最高可以相对降低 22% 的 MSE。新的后训练范式下,各基准上最优时序基模相比 PatchTST 的胜率从90%提高到了100%,验证了所提方法的优越性。在剪枝结果上,大部分模型被裁减了 40-60% 的参数数量;作为特例,Moirai-large 甚至在 Electricity 上被裁剪了 97% 的参数,但依然能够取得更好的预测性能;相比之下,TTM 只有 5M 参数,因此无法大量剪枝。



02 可迁移性 

Table 4 展示了使用 Source 数据集剪枝后模型在另一 Target 数据集上的迁移效果。当使用同一领域的时序数据,即便时序频率不同,剪枝后的模型在 Target 数据上显著优于零样本预测水平,验证了所提模型结构专业化的有效性。在数据稀缺等冷启动场景下,或许可以借用其他相似数据进行时序基模后训练。



总结


这篇工作揭示了预训练时序基模在下游数据上的适应难题,强调了时序基模后训练阶段的必要性。通过观察时序基模内在的稀疏性和冗余性,研究者认为激活任务相关的子网络是时序大规模预训练提供的先验知识,可以作为微调的良好起点。研究者率先探索了时序基模的剪枝方法,所提出的“先剪枝再微调”范式有效激发了时序基模的专业化潜力,提供了应用时序基模的新手段和新研究方向。


编辑:文婧




欢迎大家扫码加入粉丝群(任选其一即可)





关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU


从学术角度来说,概念漂移可以分为多种类型,比如突发性漂移、渐进性漂移等。不同的漂移类型需要不同的应对策略。例如,对于突发性漂移,可以考虑使用切换模型的方式,快速切换到新的模型;对于渐进性漂移,可以使用增量学习的方式,逐步调整模型参数。关键在于识别漂移的类型,并选择合适的算法。

剪枝比例的选择确实是个难题,剪多了可能欠拟合,剪少了又达不到精简模型的目的。我觉得可以尝试基于验证集的性能进行动态调整,类似于早停机制。至于泛化能力,剪枝可能会导致模型忘记一些预训练中学到的通用知识,所以最好在剪枝后进行充分的微调,重新学习下游任务的特征。这就像雕塑,剪掉多余的部分,但也要精心打磨剩下的部分。

这个机制可以理解为一种软选择,通过注意力机制或者门控机制,模型可以自动学习到哪些参数对于特定任务更重要,从而在预测时给予这些参数更高的权重。这种选择机制避免了模型在所有参数上进行平均,而是专注于与任务相关的特征,从而提升了零样本性能。就好比一位经验丰富的医生,能够根据患者的症状快速找到病灶,而不是进行全面的身体检查。

我更倾向于认为这是模型的一种隐式正则化。预训练过程中,模型见过了大量不同的时序数据,因此学会了一些通用的时序模式。在面对新的任务时,模型不需要学习所有参数,只需要激活与该任务相关的参数,这相当于对模型进行了一种约束,防止过拟合,从而提升了零样本性能。有点像“君子博学而日参省乎己”的感觉,学得多,但更要懂得选择。

从信息论的角度来看,选择参数的机制可以理解为一种信息压缩。模型从大量的预训练数据中提取出重要的信息,并将其压缩到少量的参数中。在面对新的任务时,模型只需要解压与该任务相关的信息,从而实现了高效的零样本预测。这类似于JPEG图像压缩的原理,保留重要的像素信息,丢弃不重要的信息,从而减小文件大小。

我担心的是剪枝的计算成本。每次剪枝都要评估所有参数的重要性,这对于大型模型来说可能非常耗时。而且,剪枝过程可能会引入一些偏差,导致模型偏向于特定的数据集。因此,在实际应用中,需要仔细权衡剪枝的收益和成本。也许可以考虑一些更高效的剪枝算法,或者使用硬件加速来提高剪枝速度。

除了剪枝比例,剪枝的粒度也很重要。文章中提到的是结构化剪枝,也就是直接移除整个通道。但也可以考虑非结构化剪枝,只移除单个的权重。非结构化剪枝更加灵活,但需要更复杂的硬件支持。另外,剪枝后的模型可能会变得更加脆弱,对输入数据的扰动更加敏感。因此,需要进行一些鲁棒性测试,确保模型在实际应用中能够正常工作。

我觉得概念漂移就像股票市场,今天流行价值投资,明天可能就变成炒概念了。应对这种变化,除了技术手段,更重要的是业务理解。比如在电商领域,季节性变化、促销活动等都会导致概念漂移,需要结合业务知识进行干预。另外,我觉得主动学习也是一个思路,让模型主动去探索新的模式,而不是被动适应。

概念漂移确实是时序预测的核心挑战之一。判断概念漂移,可以监控预测误差的变化,例如使用滑动窗口计算误差率,或者引入统计检验方法如 Kolmogorov-Smirnov 检验来检测数据分布的变化。应对方面,除了剪枝,还可以考虑使用自适应学习率的优化器,或者引入模型集成,让不同的模型捕捉不同的时序模式。另外,如果数据允许,可以考虑使用在线学习的方式,实时更新模型。