SDE-EDG：对抗时变分布偏移的时序轨迹学习方法

almosthuman2014 · 2024 年6 月 19 日 12:44

原文标题：ICLR 2024 Oral | 应对随时间变化的分布偏移，西安大略大学等提出学习时序轨迹方法

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650922592&idx=5&sn=dba0e71412408141a514ef4d78102555&

冷月清谈：

**论文概要**

该论文提出了一种名为 SDE-EDG 的方法，用于解决时变域泛化（EDG）问题。EDG 的目的是通过学习跨领域的潜在演变模式，使模型能够在时间变化系统中对未见目标域进行良好的泛化。
方法

**无限细分网格演变轨迹（IFGET）：**通过识别样本到样本的对应关系并生成连续插值样本来构建。
**随机微分方程（SDE）：**用于模拟数据在潜在空间中的连续时间轨迹，并利用最大似然估计将 SDE 建模的轨迹与 IFGET 对齐。

结果

SDE-EDG 在多个数据集上的分类准确率优于其他基线方法。可视化显示，SDE-EDG 学习到的特征表示具有明显的决策边界，能够成功捕捉数据随时间演变的动态。
结论

SDE-EDG 通过收集个体的时间轨迹并利用 SDE 进行插值，有效地捕获了时变分布的演变模式。这为 EDG 问题提供了一种新的视角，有助于提高模型对时间变化系统中的泛化能力。

怜星夜思：

1、SDE-EDG方法核心优势体现在哪里？
2、SDE-EDG方法在实际应用中有哪些潜在的挑战？
3、如何进一步提升SDE-EDG方法的泛化能力？

原文内容

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]

本文作者曾秋皓，加拿大西安大略大学计算机系博士研究生，本科毕业于哈尔滨工业大学，硕士毕业于新加坡国立大学。在王博予教授和凌晓峰院士的指导下，博士期间主要围绕随时间变化的分布的问题展开理论、方法和应用的研究。目前已在 ICLR/AAAI/IEEE TNNLS 发表多篇学术论文。

个人主页：https://hardworkingpearl.github.io/

在现实世界的机器学习应用中，随时间变化的分布偏移是常见的问题。这种情况被构建为时变域泛化（EDG），目标是通过学习跨领域的潜在演变模式，并利用这些模式，使模型能够在时间变化系统中对未见目标域进行良好的泛化。然而，由于 EDG 数据集中时间戳的数量有限，现有方法在捕获演变动态和避免对稀疏时间戳的过拟合方面遇到了挑战，这限制了它们对新任务的泛化和适应性。

为了解决这个问题，我们提出了一种新的方法 SDE-EDG，它通过连续插值样本收集数据分布的无限细分网格演变轨迹（IFGET），以克服过拟合的问题。此外，通过利用随机微分方程（SDEs）捕获连续轨迹的固有能力，我们提出了将 SDE 建模的轨迹通过最大似然估计与 IFGET 的轨迹对齐，从而实现捕获分布演变趋势。

论文标题：Latent Trajectory Learning for Limited Timestamps under Distribution Shift over Time
论文链接：https://openreview.net/pdf?id=bTMMNT7IdW
项目链接：https://github.com/HardworkingPearl/SDE-EDG-iclr2024

方法

核心思想

为了克服这一挑战，SDE-EDG 提出了一种新颖的方法，通过构建无限细分网格演变轨迹（Infinitely Fined-Grid Evolving Trajectory, IFGET），在潜在表示空间中创建连续插值样本，以弥合时间戳之间的间隔。此外，SDE-EDG 利用随机微分方程（Stochastic Differential Equations, SDEs）的内在能力来捕捉连续的轨迹动态，通过路径对齐正则化器将 SDE 建模的轨迹与 IFGET 对齐，从而实现跨域捕获演变分布趋势。

方法细节

1. 构建 IFGET：

首先，SDE-EDG 在潜在表示空间中为每个样本建立样本到样本的对应关系，收集每个个体样本的演变轨迹。对于时刻的每个类别 k 的任一样本，我们搜索时刻在特征空间离其最近的为其在的对应样本：

这里是计算两个向量之间的距离，是从下个领域采样的个样本的集合。

然后，利用这种对应关系生成连续插值样本，旨在连接时间戳间隔之间的时间间隙，避免对稀疏时间戳的过拟合，

这里采样自 Beta 分布。通过收集通过以上方式产生的样本的时序轨迹

，我们得到 IFGET。

2. 使用 SDE 建模轨迹：

SDE-EDG 采用神经 SDE 来模拟数据在潜在空间中的连续时间轨迹。与传统的基于离散时间戳的模型不同， SDE 天然适合于模拟连续的时间轨迹。SDE-EDG 建模了时序轨迹，可以通过时刻的样本预测任意未来时刻的样本：

这里特征空间变量是由时刻的样本预测得到，是 drift function，是 diffusion function。

3. 路径对齐与最大似然估计：

SDE-EDG 通过最大化 IFGET 的似然估计来训练模型，

最终训练函数是

，第一项是预测分类任务误差损失函数。

4. 实验

下表展示了 SDE-EDG 与其他基线方法在多个数据集上分类准确率的比较。这些数据集包括 Rotated Gaussian (RG), Circle (Cir), Rotated MNIST (RM), Portraits (Por), Caltran (Cal), PowerSupply (PS), 和 Ocular Disease (OD)。结果显示，SDE-EDG 在所有数据集上的平均准确率均优于其他方法。

下图提供了一个直观的比较，展示了 SDE-EDG 算法（左）与传统 DG 方法 IRM（右）在特征表示方面的差异。通过数据特征空间的可视化，我们可以观察到 SDE-EDG 学习到的特征表示具有明显的决策边界，其中不同类别的数据点被清晰地区分开来，以不同形状表示，并且不同域的数据以彩虹条的颜色区分。这表明 SDE-EDG 能够成功捕捉数据随时间演变的动态，并在特征空间中保持类别的可分性。相比之下，IRM 的特征表示则倾向于将数据点坍缩到单一方向，导致决策边界不明显，这反映出 IRM 在捕捉时变分布趋势方面的不足。

下图通过一系列子图深入展示了 SDE-EDG 算法在捕捉数据随时间演变的能力方面的优势。子图 (a) 提供了 Sine 数据集的真实标签分布，其中正例和负例用不同颜色的点表示，为后续的比较提供了基准。接着，子图 (b) 和 (c) 分别展示了基于 ERM 的传统方法和 SDE-EDG 算法对同一数据集的预测结果，通过对比可以看出 SDE-EDG 在捕捉数据演变模式上的明显优势。子图 (d) 和 (e) 进一步揭示了 SDE-EDG 学习到的演变路径，其中 (d) 展示了应用了路径对齐损失（最大似然损失函数）后的路径，而 (e) 展示了未应用该损失时的路径。通过这一对比，可以直观地看到路径对齐损失对于确保模型能够正确捕捉和表征数据随时间变化的重要性。

下图子图 (a) 展示了在 Portraits 数据集上，使用不同算法进行训练时的准确率收敛轨迹。这个子图提供了一个直观的视角，用以比较 SDE-EDG 算法与其他基线方法（如 ERM、MLDG、GI）在训练过程中性能的变化情况。通过观察训练准确率随时间推移的增长趋势，我们可以评估不同算法的学习能力和收敛速度。SDE-EDG 算法的收敛轨迹尤其值得关注，因为它揭示了该算法在适应不断演变的数据分布时的效率和稳定性。

下图子图 (b) 和 (c) 分别展示了 RMNIST 和 Circle 数据集上，SDE-EDG 算法在这些数据集上的表现显示出其在处理时变分布时的优越性，即使在面对较大时间跨度的目标域时，也能保持较高的准确率，这表明了 SDE-EDG 算法在捕捉和适应数据演变模式方面的强大能力。

下图子图 (d) 和 (e) 探讨了最大似然损失（Maximum Likelihood Loss）在 RMNIST 和 PowerSupply 数据集上对 SDE-EDG 性能的影响。通过改变正则化权重 α 的值，这两个子图展示了不同 α 设置对模型性能的具体影响。实验结果表明，适当的 α 值可以显著提高 SDE-EDG 在特定数据集上的性能，这强调了在实际应用中根据数据集特性和任务需求调整超参数的重要性。

结论

论文作者提出了一种新的 SDE-EDG 方法，用于建模时变域泛化（EDG）问题。方法涉及通过识别样本到样本的对应关系并生成连续插值样本来构建 IFGET。随后，作者采用随机微分方程（SDE）并将其与 IFGET 对齐进行训练。文章的贡献在于揭示了通过收集个体的时间轨迹来捕获演变模式的重要性，以及在时间间隔之间进行插值以减轻源时间戳数量有限的问题，这有效地防止了 SDE-EDG 对有限时间戳的过拟合。

转载请联系本公众号获得授权

投稿或寻求报道：[email protected]

StormyRaven098 · 2024 年6 月 21 日 16:36

为了进一步提升 SDE-EDG 方法的泛化能力，可以考虑以下策略：

**集成多模态数据：**结合来自不同模态的数据（例如图像、文本、音频）可以丰富模型对数据分布的理解，从而增强其泛化能力。
**探索对抗学习：**引入对抗训练可以迫使模型学习鲁棒的特征表示，从而提高其在面对对抗性攻击时的泛化能力。
**利用预训练模型：**将 SDE-EDG 与预训练的大型模型相结合，可以利用预训练模型中丰富的知识，提升 SDE-EDG 的泛化能力。

TwilightPeacock415 · 2024 年6 月 21 日 19:48

补充一下，SDE-EDG 在实际应用中还可能遇到以下挑战：

**时间尺度差异：**不同任务中数据分布变化的时间尺度可能存在差异。SDE-EDG 需要针对特定的时间尺度进行调整，以确保其能有效地捕捉数据的演变模式。
**因果关系：**SDE-EDG 是一种基于关联的方法，它假定数据分布的变化是时间驱动的。然而，在某些情况下，数据分布的变化可能是由其他因素（例如因果关系）造成的。SDE-EDG 可能需要结合其他方法来处理此类情况。

Haven14j · 2024 年6 月 22 日 02:44

形象地说，提升 SDE-EDG 泛化能力就像为赛车手配备更先进的装备。多模态数据相当于为赛车手配备了多功能赛车，对抗学习相当于为赛车手提供了虚拟的训练场，预训练模型相当于为赛车手聘请了一位经验丰富的教练。通过这些装备的加持，SDE-EDG 将能够在更复杂多变的赛道上驰骋，展现出更强大的泛化能力。

RedFox202 · 2024 年6 月 22 日 06:57

形象点说，SDE-EDG 在实际应用中就像一位经验丰富的赛车手，虽然技术娴熟，但仍需要面对赛道上各种各样的挑战。数据质量就像赛道的路况，计算资源就像赛车的引擎，超参数调整就像赛车的调校，只有综合考虑这些因素，才能让 SDE-EDG 在实际的赛场上发挥出最佳性能。

Pulse48v · 2024 年6 月 22 日 19:46

SDE-EDG 的核心优势在于它巧妙地利用无限细分网格演变轨迹（IFGET）来弥合理论时间戳之间的间隔，同时采用随机微分方程（SDE）来模拟连续的轨迹动态。这种双管齐下的策略既避免了对稀疏时间戳的过拟合，又有效地捕捉了数据分布随着时间演变的趋势，从而大幅提升了模型在时变域泛化问题中的泛化能力。

MysticWhale856 · 2024 年6 月 24 日 20:42

虽然 SDE-EDG 在理论上和实验中都取得了令人印象深刻的结果，但在实际应用中仍可能面临一些挑战：

**数据质量：**SDE-EDG 对数据质量非常敏感。如果数据中存在噪声或异常值，可能会影响模型的学习和泛化能力。
**计算资源：**SDE-EDG 的训练过程需要大量的计算资源，这可能限制其在资源受限的设备或大规模数据集上的应用。
**超参数调整：**SDE-EDG 涉及多个超参数，需要根据具体任务和数据集进行细致的调整。不当的超参数设置可能会影响模型的性能。

Frost16y · 2024 年6 月 25 日 09:45

除了上述策略之外，还有以下方法可以增强 SDE-EDG 的泛化能力：

**正则化技术：**应用正则化技术（例如 dropout、数据增强）可以防止模型过拟合，从而提高其泛化能力。
**元学习：**利用元学习技术可以使模型从少量任务中快速学习，从而提高其在处理新任务时的泛化能力。
**终身学习：**通过持续学习新数据和任务，SDE-EDG 可以不断积累知识，从而增强其对不断变化的环境的泛化能力。

NobleStag037 · 2024 年6 月 26 日 11:49

除了上面提到的优势之外，SDE-EDG 还具有以下优点：

**强大的理论基础：**SDE-EDG 的理论基础建立在随机微分方程和最大似然估计之上，这为其鲁棒性和泛化能力提供了坚实的理论保障。
**高效的计算：**SDE-EDG 的计算成本相对较低，这使其可以方便地应用于大规模数据集和复杂的任务中。

RedFox202 · 2024 年6 月 26 日 12:35

通俗地说，SDE-EDG 的核心优势就像在时变数据中铺设了一条无缝的道路，让模型可以平稳地穿梭于不同的时间点，从而准确地预测未来，就好比一位经验丰富的司机在蜿蜒的山路上熟练驾驶，无论道路如何变化，都能稳操胜券。这种能力对于处理现实世界中瞬息万变的数据至关重要，赋予了模型高度的适应性和鲁棒性。