DistDF:利用联合分布Wasserstein对齐改进时序预测

ICLR 2026 论文提出 DistDF 框架,通过联合分布 Wasserstein 距离对齐,解决时序预测中 MSE 损失因标签自相关性产生的偏差问题,显著提升预测精度。

原文标题:ICLR 2026 | DistDF:时序预测需要分布对齐——从MSE到联合Wasserstein

原文作者:机器之心

冷月清谈:

北京大学林宙辰团队在 ICLR 2026 发表论文,提出 DistDF 框架,旨在解决传统时序预测方法中使用 MSE 损失函数时,因标签序列自相关性而产生的偏差问题。DistDF 将时间序列预测转化为条件分布对齐问题,通过最小化预测序列与标签序列条件分布之间的 Wasserstein 距离来训练预测模型,实现无偏训练,并充分考虑标签序列的自相关性。该方法首先将条件分布对齐问题转化为联合分布对齐问题,然后利用 Bures-Wasserstein 距离作为损失函数,在高斯分布假设下简化计算。实验结果表明,DistDF 能够显著提升预测性能,并在多个数据集和模型中均表现出较好的效果。该研究为分布对齐技术在时序任务中的应用提供了新的思路和理论框架。

怜星夜思:

1、文章提到 DistDF 通过最小化预测分布和真实条件分布之间的距离来规避标签自相关带来的似然估计偏差,那么在实际应用中,如何选择合适的 Wasserstein 距离的变体(例如Bures-Wasserstein距离)?选择不同的 Wasserstein 距离变体会对预测结果产生什么影响?
2、DistDF 框架中,将条件分布对齐问题转化为联合分布对齐问题是一个关键步骤。那么,这种转化在其他机器学习任务中是否也有应用前景?例如,在生成对抗网络(GAN)中,是否可以通过对齐真实数据和生成数据的联合分布来提升生成效果?
3、文章提到 DistDF 是一种模型无关的损失函数,可以支持各类预测模型。那么,在实际应用中,如何选择与 DistDF 框架兼容性最好的预测模型?是否存在某些类型的预测模型更适合与 DistDF 结合使用?

原文内容


目前,时间序列预测方法通常采用基于极大似然估计的 MSE 作为损失函数,但这类损失在标签序列具有自相关性时有偏


近期,北大林宙辰团队将时间序列预测转化为条件分布对齐问题。并提出一种新的损失函数,通过最小化预测序列与标签序列条件分布之间的 Wasserstein 距离训练预测模型;既能保证无偏训练,又能充分考虑标签序列内的几何结构(自相关性)。


这一工作为以最优传输为代表的分布对齐技术赋能预测问题提供了全新的研究思路和理论框架。



  • 论文标题:DistDF: Time-series Forecasting Needs Joint-distribution Wasserstein Alignment

  • 作者单位: 小红书、北京大学、浙江大学、上海财经大学、松鼠 AI 等

  • 代码链接:https://github.com/Master-PLC/DistDF


1. 问题分析:标签中的自相关性


构建一个有效的预测模型需要解决两个问题:用什么架构怎么训练。过去十年,研究者们在架构创新上投入了大量精力 ——Transformer、线性模型、图神经网络轮番登场。但很少有人质疑:我们使用的损失函数,真的适合时间序列数据吗?


目前主流的时间序列预测方法采用直接预测范式(Direct Forecast, DF):模型接收一段历史观测,通过神经网络提取特征,然后一次性并行预测未来 T 步。相比传统的迭代预测,DF 方法具有并行计算的优势,训练效率更高。


在损失函数的选择上,DF 方法几乎 "不约而同" 地选择了时序均方误差(TMSE)


图片


其中,图片为给定历史序列 X 时的标签序列的第 t 步,图片为对应的预测序列的第 t 步。然而,TMSE 损失函数在计算时,默认各预测步之间相互独立。但在时间序列预测中,标签序列往往呈现显著的自相关性 —— 每个观测值通常依赖于其前序观测值,因此,这一假设不成立,导致 MSE 损失函数相比似然函数存在偏差


[似然估计偏差] 当标签之间的条件协方差矩阵图片不是单位矩阵时,MSE 损失函数相比真实似然函数存在偏差:


图片


这一偏差只有在图片为单位矩阵时,也就是标签序列在给定输入时条件独立时才会消失,但在实际时间序列数据中几乎不可能满足这一条件。因此,使用极大似然训练预测模型,不可避免地会遇到有偏似然估计的问题。


2. DistDF:基于联合分布对齐的训练方法


DistDF 团队注意到:训练预测模型,本质上是让模型预测分布与真实标签的条件分布尽可能接近。受此启发,DistDF 不再依赖传统的极大似然估计,而是直接最小化预测分布与真实条件分布之间的距离,从而规避了标签自相关带来的似然估计偏差问题。


2.1 从条件分布对齐到联合分布对齐


直接对齐条件分布面临估计困难:对于任何给定的 X,一个有限样本数据集通常只提供一个相关的标签序列 Y,预测模型也只产生一个输出。因此,条件分布 图片 和 图片各自只包含一个样本,不足以表示底层条件分布,使得用于对齐的分布距离变得无意义也无法计算。


为了解决这一难题,注意到:图片


也就是说,若能使两个分布的联合分布完全对齐,并已确保图片相同,则其条件分布也会对齐。


因此,条件分布对齐问题可以转化为联合分布对齐问题。进一步,论文基于最优传输领域的 Wasserstein 距离,进行了理论推导,证明了联合分布的 Wasserstein 距离是条件分布 Wasserstein 距离期望的上界:


图片


因此,最小化历史 - 预测联合分布与历史 - 标签联合分布的 Wasserstein 距离,可以有效实现条件分布的对齐,从而实现预测模型的无偏训练。此外,联合分布的样本可以直接从全体数据集采集,极大丰富了用于估计分布距离的样本数量,提高了距离估算的可靠性。


2.2 基于 Bures-Wasserstein 距离的损失函数


然而,直接计算前述的 Wasserstein 距离需要求解大规模的最优传输问题,在大批量训练时会带来较大的计算负担。幸运的是,在高斯分布假设下,联合分布间的 Wasserstein 距离可以被解析地表示为均值与协方差之间的距离之和:


图片


其中,图片也被称为 Bures-Wasserstein 距离,图片项衡量协方差矩阵之间的距离。这避免了求解复杂的传输问题,可以直接从经验样本中计算。


DistDF 的具体实现步骤如下:


1)构造联合序列:将历史序列X与标签Y 和预测图片分别拼接,得到联合向量图片 和 图片


2)计算统计量:计算Z和图片的均值和协方差矩阵


3)计算损失:使用上述统计量计算 图片和 图片的 Bures-Wasserstein 距离,记作 图片


4)融合损失:将分布距离与 MSE 损失加权融合,图片用于平衡两者贡献:

图片

DistDF 是一种模型无关的损失函数,可以支持各类预测模型。


3. 实验结果



DistDF 可以显著提升预测性能。以 ECL 为例,DistDF 将 iTransformer 的 MSE 降低了 2.7%。这些改进归因于 DistDF 能够通过对齐条件分布来处理标签中的自相关性,从而提升预测性能。



DistDF 相比现有损失函数也取得了较大的性能提升。FreDF 和 Time-o1 虽然减少了似然估计的偏差并提升了性能,但残差偏差仍然存在,因此性能仍有改进空间;DistDF 通过最小化条件分布之间的距离,实现了无偏对齐,因此取得了最佳性能。



论文还进行了消融实验,研究均值对齐和协方差对齐对损失函数性能的贡献。结果表明:仅均值对齐或仅协方差对齐相比 DF 都有改进,而结合两者取得了最佳结果,展示了两者的协同效应。



通过可视化预测序列发现,DistDF 生成的预测序列与真实标签序列之间的拟合度更高,同时抑制明显的噪声和异常波动;对困难样本的外推能力更好。



论文还测试了 DistDF 在不同神经网络架构上的表现,包括 TimeBridge、FredFormer、iTransformer 和 FreTS 等,证明了其与模型无关的特性:可以切实有效提升大多数主流预测模型的精度。


4. 结论


本文深入剖析了基于极大似然估计的预测模型训练方法有偏的问题。针对这一痛点,作者提出了 DistDF 训练框架,直接通过对齐条件分布训练预测模型。考虑到有限样本下条件分布之间的距离难以直接估计,论文提出转向联合分布对齐,并理论证明该方法足以保证条件分布对齐。大量实验证明,DistDF 在不同数据集和模型中均带来显著提升。


本研究不仅强调了损失函数设计在时间序列预测中的重要性,还揭示了分布对齐技术在设计时间序列损失函数中的重要潜力。为迁移学习领域自适应生成模型等领域的分布对齐技术在时序任务中的落地应用提供了理论基础和实践思路。


5. 作者介绍



本文通讯作者李昊轩现任北京大学助理研究员,清华大学逻辑学研究中心、牛津大学研究员(Research Fellow)。研究兴趣是因果推断和大模型逻辑推理,以第一作者和通讯作者发表 CCF-A 类论文 50 余篇,谷歌学者引用超 1000 次,国家发明专利授权 17 项,研究成果被麻省理工科技评论、人民日报、中国人工智能学会等报道。



本文通讯作者林宙辰博士现任北京大学智能学院、通用人工智能全国重点实验室教授。他的研究领域包括机器学习和数值优化。他已发表论文 360 余篇,谷歌学术引用超过 42,000 次。他是 IAPR、IEEE、AAIA、CCF 和 CSIG 会士,多次担任 CVPR、NeurIPS、ICML 等会议的 Senior Area Chair,现任 ICML Board Member。本工作得到了北京市科学技术委员会、中关村科技园区管理委员会的大力支持,在此深表感谢。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com


我理解 DistDF 相当于做了一个巧妙的“降维”。直接对条件分布进行建模,复杂度太高,需要大量数据支撑。而通过联合分布,引入历史序列 X 的信息,相当于增加了约束,降低了问题的维度,从而更容易求解。这种“间接”解决问题的思路,在很多优化问题中都常见,比如引入拉格朗日乘子。

2.7% 的 MSE 降低,看起来不多,但在某些场景下可能至关重要。例如,在高精度要求的工业控制系统中,微小的预测误差都可能导致严重的事故。另外,在金融预测中,哪怕是 0.1% 的收益提升,都可能带来巨大的经济效益。所以,关键要看应用场景对预测精度的要求有多高。

这是一个很有意思的问题!我觉得可以从两个方面入手。一方面,可以尝试使用一些近似计算 Wasserstein 距离的方法,比如 Sinkhorn 算法。另一方面,可以考虑使用一些其他的分布距离度量,比如 Maximum Mean Discrepancy (MMD),看看能不能在保证性能的同时降低计算复杂度。

我觉得除了预处理历史数据,还可以考虑在DistDF的损失函数中引入一些鲁棒性措施。例如,可以使用一些对异常值不敏感的距离度量,来替代Bures-Wasserstein距离。另外,也可以尝试在损失函数中加入正则化项,限制模型对噪声的过度拟合。

自相关性是指时间序列中相邻观测值之间存在相关关系。在时间序列预测中,如果标签序列具有自相关性,使用 MSE 损失函数会默认各预测步之间相互独立,这与实际情况不符,导致模型训练出现偏差。其他损失函数,如 MAE(平均绝对误差)等,也可能受到自相关性的影响,但影响程度可能不同。一些专门为时间序列设计的损失函数,例如考虑了时间依赖性的损失函数,可能会减轻自相关性的影响。问题是:怎么量化自相关性对不同损失函数的影响,或许能指导我们选择更合适的损失函数?

我觉得把条件分布变成联合分布来处理,就像是把一个复杂的问题拆解成几个简单的步骤。直接怼条件分布太难了,样本不够啊!换成联合分布,数据量一下子就上去了,就好比本来只能看到一片叶子,现在能看到整棵树了。但这种方法也有局限,必须确保历史序列是相同的,这本身也是一种约束。除了DistDF的思路,我想到一个歪招:能不能用迁移学习,把其他类似数据集的知识迁移过来,帮助我们更好地估计条件分布?

这个问题很有意思!我觉得这种思路在样本有限的情况下,或者说条件概率难以直接估计的时候特别有潜力。比如在联邦学习中,各个客户端的数据分布可能差异很大,直接对齐条件分布比较困难,如果能转为对齐联合分布,是不是也能减少通信成本,提升模型泛化能力?

我猜想,如果模型本身已经对标签序列的自相关性进行了很好的建模(例如,通过循环神经网络或者注意力机制),那么DistDF带来的增益可能会相对较小。因为模型已经 learn 到了这部分信息,DistDF只是在损失函数层面做了一个补充,边际效应递减。

emmm… 要我说,直接上 Bayesian Optimization!这玩意儿在调参界yyds,省时省力。不过前提是计算资源足够,毕竟每次评估都需要训练模型,还是挺耗费时间的,但是相信我,结果绝对不会让你失望!

抖个机灵… 会不会是因为模型太完美了,已经找到了最优解,任何改动(包括引入 DistDF)都会破坏这种平衡?哈哈,当然这只是玩笑话。更严肃地说,任何算法都有其适用范围,DistDF 也不例外。可能需要具体问题具体分析,并进行充分的实验验证。