ICDE 2025：基于可微分隐藏状态的神经ODE用于不规则时间序列分析

DatapiTHU · 2025 年7 月 2 日 17:56

中科大提出基于可微分隐藏状态(DHS)的神经ODE框架，用以解决不规则时间序列问题。通过注意力机制和Hoyer度量，优化动态建模，实验证明有效。

原文标题：ICDE 2025 | 神经常微分方程在不规则时间序列中的应用

原文作者：数据派THU

原文链接： http://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247658198&idx=1&sn=9bed40205eb24ad5af454170fa35835b&

冷月清谈：

本文介绍了一篇ICDE 2025论文，该论文提出了一种基于可微分隐藏状态(DHS)的增强型神经ODE框架，用于处理不规则时间序列。不规则时间序列由于其非均匀采样和数据缺失，给现有分析方法带来挑战。该框架通过引入注意力机制和Hoyer度量，优化了时间序列的动态建模。DHS将观测值映射到隐藏状态空间，并利用广义逆理论反向工程注意力机制，得到描述隐藏状态动态的ODE。同时，Hoyer度量用于提高模型对时间变化的识别能力。实验结果表明，该模型在多个数据集上优于现有方法，特别是在插值和外推任务中，证明了其在不规则时间序列分析中的有效性。

怜星夜思：

1、文章提到NODE在处理不规则时间序列时存在潜在状态碎片化的问题，DHS是如何解决这个问题的？除了DHS，你认为还有哪些其他的思路可以解决这个问题？
2、文章中提到Hoyer度量用于提高时间关系建模的精度，为什么要最大化Hoyer度量？Hoyer度量在时间序列分析中还有哪些应用场景？
3、文章在多个数据集上验证了DHS模型的有效性，你认为DHS模型在哪些实际应用场景中最有潜力？为什么？

原文内容

本文共2500字，建议阅读5分钟
本文介绍一篇 ICDE 2025 中的关于神经常微分方程（NODE）在不规则时间序列分析中的应用研究。

本文介绍一篇 ICDE 2025 中的关于神经常微分方程（NODE）在不规则时间序列分析中的应用研究。来自中科大的研究者们提出了一种基于可微分隐藏状态（DHS）的增强型神经 ODE 框架。通过引入注意力机制和 Hoyer 度量来优化时间序列的动态建模，并在多个数据集上验证了模型的有效性。

【论文标题】

Neural ODE with Differentiable Hidden State for Irregular Time Series

【论文地址】

https://www.computer.org/csdl/proceedings-article/icde/2025/360300c107/26FZAEab0hq

论文背景

不规则时间序列数据在各种现实世界应用中无处不在，包括疾病预防、金融决策和地震预测等。不规则时间序列数据的特征是非均匀采样，观测值在不同时间间隔发生。这种不规则性，加上由于技术问题或数据质量问题导致的频繁缺失数据，给现有的时间序列分析方法带来了挑战，包括基于RNN的模型和Transformer变体。

NODE 由于其顺序处理能力和处理不规则采样数据的能力，已成为不规则时间序列建模的热门且有前景的方法。通过使用适当的常微分方程（ODE）来建模不规则时间序列的动态，可以通过对 ODE 进行积分，从不规则采样的数据中重建连续且完整的时间序列。

然而，基于 NODE 的方法在不规则时间序列建模中面临一个基本挑战。它们从初始值开始积分以推导出所有后续值，而没有考虑初始点之后的观测数据点。它们在每个时间点将潜在状态与观测值进行积分，即在不同时间间隔有不同的初始值。尽管这种机制可以达到一定的准确性，但它只考虑每个时间点的一个观测值，忽略了观测值之间的相关性。同时，这种机制导致潜在过程被分割，可能无法准确反映真实的动态过程，如图1（a）所示。

图1：Neural ODE、Neural CDE以及本文方法的示意图

为了解决 NODE 中潜在状态碎片化的问题，神经控制微分方程（NCDE）方法涉及对观测值进行插值以估计潜在过程，例如Kidger等人（2020）中使用的自然三次样条插值。这种估计过程随后引导积分路径，使模型能够纳入后续观测值。尽管这种方法简单，但它未能充分利用数据的全部信息内容。如图1（b）所示，这种方法仅在给定时间点取两个最近的观测值，且使用插值算法无法很好地建模时间序列中的时间相关性。

针对现有解决方案固有的局限性，本文提出了 DHS 增强的神经 ODE 框架，这是一种数据驱动的方法，旨在巧妙地捕捉时间动态，同时确保潜在过程的无缝连续性。引入了基于注意力的微分隐藏状态，将不规则采样的观测值视为将时间序列映射到隐藏状态空间的投影矩阵。由于投影是线性的，隐藏状态保留了原始时间序列的连续性。

所提方法利用广义逆理论，创新性地反向工程注意力机制，得到描述隐藏状态动态的 ODE。为了提高时间关系建模的精度，作者整合了 Hoyer 度量。通过战略性地最大化Hoyer度量，本文框架优化了模型对细微但显著的时间变化的识别能力，从而提高了预测的准确性和可靠性。

论文方法

上图展示了模型的整体架构：将不规则采样的观测数据输入神经网络以生成 Z，Z 随后作为注意力层的 key 和 value 用于生成可微隐藏状态。整个框架的输出通过基于 Hippo 架构的输出网络生成。

01、建模时间序列的ODE

作者首先定义了不规则时间序列表示为，其中是在时间点处的观测值，是观测时间点的集合。为了建模隐藏状态的连续动态，作者提出了以下常微分方程（ODE）：

其中，表示隐藏状态的动态。给定任意时间，隐藏状态可以通过对上述 ODE 进行积分获得：

最终，通过一个读出函数可以从隐藏状态生成时间序列在时间处的输出：

02、基于离散观测的注意力可微分隐藏状态

为了捕捉时间序列的动态变化，作者提出了可微分隐藏状态（DHS）。DHS是通过将观测值映射到隐藏状态空间来生成的，具体步骤如下：

观测值的嵌入：对于每个时间点的观测值，通过一个神经网络将其映射到隐含表示：

其中，表示的历史观测值。

注意力机制：将所有观测时间点的隐含表示作为"键"（Key）和"值"（Value），将当前时间点的隐含表示作为"查询"（Query），通过注意力机制生成DHS：

其中，是注意力分数，是归一化的注意力分数，是DHS。

03、DHS的导数

为了将 DHS 的动态建模为 ODE，作者计算了 DHS 关于时间的导数。根据链式法则，DHS 的导数可以表示为：

其中，是将转换为对角矩阵。由于无法直接计算，作者引入了一个新的神经网络来建模：

因此，DHS 的导数可以表示为：

为了将注意力分数和隐含表示表示为DHS 的函数，作者利用了广义逆理论。通过求解线性方程组，得到了和的表达式，并最终得到了描述 DHS 动态的 ODE。

04、输出

DHS 提供了一个连续的隐藏嵌入，可以方便地用于下游任务。对于分类任务，可以直接通过一个简单的神经网络将DHS映射到输出：

对于插值和外推任务，可以在任意时间点通过对应的获得输出。

此外，DHS 还可以与其他方法（如Hippo）结合使用。Hippo 是一种有效的时间序列表示方法，但需要连续序列作为输入，而 DHS 正好提供了这样的输入。作者构建了一个结合 DHS 和 Hippo 的系统方程，进一步增强了模型的性能。

实验结果

作者在以下四个数据集上进行了实验：合成周期数据集，动态系统，美国历史气候网络，PhysioNet Challenge 2012。将 DHS 模型与以下多种基线方法进行了比较：基于注意力的模型，基于 SSM（State Space Model）的模型，基于 RNN 的模型和基于 ODE 的模型。实验结果如下：

作者使用 USHCN 和 Physionet 数据集评估了模型在插值和外推任务上的性能。结果如下：

作者比较了 DHS 模型与代表性基线方法的时间复杂度，并列出了在 USHCN 数据集上每个训练周期的时间消耗。结果如下：

通过在多个数据集和任务上的实验，作者证明了 DHS 模型在不规则时间序列分析中的有效性。

DHS 通过引入基于注意力的微分隐藏状态空间，能够更好地捕捉时间序列的动态变化，并在分类、插值和外推任务上均取得了优异的性能。

此外，DHS 模型在时间消耗方面也表现出色，能够在可接受的时间内实现高性能。

总结

本文针对当前神经 ODE 方法面临的一个关键挑战：其在处理不规则时间序列时，难以在保持潜在动态连续性的同时无缝整合上下文信息。为解决这一问题，作者提出了一种基于注意力机制的微分隐状态空间，通过将不规则采样观测值作为键值矩阵来增强模型的上下文感知能力。基于这一创新性隐状态空间，作者运用广义逆理论构建了能够封装隐状态随时间演化的 ODE 方程。为提升时间关系建模的精确度，引入 Hoyer 度量准则，旨在隐状态生成过程中最大化注意力得分的稀疏性。通过合成数据集和真实数据集的系统实验验证，本文的方法在与现有前沿模型的对比中 consistently（始终如一地）展现出更优的不规则时间序列分析效能。

编辑：于腾凯

校对：刘茹宁

欢迎大家扫码加入粉丝群

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU

Torrent81h · 2025 年7 月 3 日 17:56

DHS模型就像一个“数据修复大师”，擅长从残缺不全的数据中挖掘出有价值的信息。所以我认为它在以下场景中最有“用武之地”：
* 社交媒体分析： 用户的发帖时间、评论时间等是不规则的，而且可能存在信息缺失。DHS模型可以用于用户行为分析、舆情监测等。
* 推荐系统： 用户的浏览记录、购买记录等也存在不规则性和缺失值。DHS模型可以用于个性化推荐、提高用户满意度等。

这些场景的数据通常非常复杂，而且充满噪声，需要模型具有很强的适应性和学习能力。

RadiantButterfly764 · 2025 年7 月 5 日 21:51

文章中DHS通过将观测值映射到隐藏状态空间，利用注意力机制生成可微分的隐藏状态，从而保证了潜在过程的连续性。简单来说，就是把不规则的观测数据转化为连续的、可微的表达，避免了NODE直接积分导致的碎片化。

其他思路的话，我觉得可以考虑以下几个方向：
1. 基于Transformer的结构改进： Transformer在处理序列数据上表现出色，可以借鉴其自注意力机制，在不规则时间序列中更好地捕捉长距离依赖关系，并改进位置编码方式来适应不规则的时间间隔。
2. 强化学习方法： 将时间序列建模看作一个控制问题，利用强化学习来动态调整ODE的积分过程，根据观测数据实时优化模型参数，从而更好地适应不规则的时间间隔。
3. 图神经网络（GNN）： 将时间序列数据表示为图结构，节点表示观测值，边表示时间关系，利用GNN学习节点之间的依赖关系，从而更好地处理不规则的时间间隔和缺失数据。

SapphireCat928 · 2025 年7 月 5 日 21:50

我认为DHS模型在需要处理高度不规则、数据缺失严重的时间序列的场景中最有潜力。例如：
1. 医疗健康： 患者的生理指标数据（心率、血压等）通常是不规则采样的，而且可能存在缺失值。DHS模型可以用于预测病情发展、诊断疾病等。
2. 金融： 股票交易数据、汇率数据等也存在不规则性和缺失值。DHS模型可以用于预测市场趋势、风险管理等。
3. 物联网（IoT）： 传感器数据通常是不规则采样的，而且容易受到环境干扰。DHS模型可以用于设备状态监测、故障预测等。

这些场景的共同特点是数据质量不高，需要模型具有很强的鲁棒性和泛化能力，而DHS模型通过注意力机制和Hoyer度量，可以有效地提取关键信息，降低噪声的影响。

RubyDragon432 · 2025 年7 月 5 日 22:27

NODE潜在状态碎片化，本质上是模型对时间依赖关系的捕捉不足。DHS通过注意力机制将观测值与隐藏状态关联，有点类似“亡羊补牢”，但关键是“补”得及时有效，让状态更平滑。

那么发散一下，我觉得可以尝试：
* 更精细的插值方法： NCDE的插值方法过于简单，可以尝试更高级的插值技术，例如高斯过程回归，在插值的同时估计不确定性，并将其融入到ODE的积分过程中。
* 混合模型： 结合NODE的连续性和RNN的记忆性，设计一个混合模型，RNN负责捕捉短期依赖，NODE负责建模长期动态，互相补充。
* 数据增强： 对不规则时间序列进行数据增强，例如通过生成对抗网络（GAN）合成新的时间序列，增加数据的多样性，提高模型的泛化能力。

FieryPhoenix505 · 2025 年7 月 6 日 04:53

DHS模型的核心优势在于处理非均匀采样数据和捕捉时间动态的能力。因此，我认为以下场景最有潜力：
* 环境监测： 空气质量、水质等监测数据往往是不定期采集的，而且受到各种因素的影响。DHS模型可以用于预测环境变化趋势、评估污染程度等。
* 交通运输： 车辆行驶轨迹数据、交通流量数据等也存在不规则性和缺失值。DHS模型可以用于智能交通管理、路径规划等。

SilverWolf359 · 2025 年7 月 6 日 08:16

最大化Hoyer度量，可以理解为让模型学会“抓重点”。时间序列中往往只有少数几个关键的时间点对预测结果起决定性作用，让注意力集中在这些点上，可以减少噪声的干扰，提高模型的鲁棒性。

Hoyer度量的其他应用：
* 时间序列分解： 将时间序列分解成多个分量，例如趋势分量、季节分量和残差分量，然后用Hoyer度量来衡量每个分量的稀疏性，有助于更好地理解时间序列的结构。
* 时间序列分类： 将Hoyer度量作为分类器的输入特征，可以提高分类的准确率。

Whisper51y · 2025 年7 月 6 日 15:26

谢邀，问题很有深度！DHS用注意力机制建立观测和隐状态的联系，相当于给NODE加了个“外挂”，让它在积分的时候能参考上下文信息，避免“一条路走到黑”。

我提供一个比较“玄学”的思路：
* 将时间视为一种“资源”： 就像算力资源一样，模型在不同的时间点分配不同的“注意力资源”，在重要或变化剧烈的时间点投入更多资源，在平稳的时间段减少资源消耗。这可以通过动态调整ODE的步长或引入时间敏感的损失函数来实现。当然，这个思路需要仔细设计和实验验证，否则可能适得其反。

Strider82w · 2025 年7 月 7 日 16:17

Hoyer度量是用来衡量向量稀疏性的指标。在本文中，最大化Hoyer度量意味着要让注意力得分尽可能稀疏，也就是说，模型更关注少数几个关键的时间点，而不是平均地关注所有时间点。这样做的好处是可以突出时间序列中的重要事件或转折点，从而提高模型对时间关系的建模精度。

Hoyer度量在时间序列分析中还有很多应用场景，例如：
1. 异常检测： 通过Hoyer度量可以识别出与其他时间点显著不同的异常点。
2. 特征选择： 选择Hoyer度量高的特征，可以降低维度，提高模型效率。
3. 聚类： 根据Hoyer度量可以将时间序列分成不同的簇，每个簇代表一种特定的模式。

Ember34n · 2025 年7 月 8 日 20:23

Hoyer度量就是让模型变得“更挑剔”，只关注那些真正重要的时间点。这就像一个经验丰富的交易员，不会被市场上的噪音所迷惑，而是专注于那些能带来收益的交易机会。

除了文章提到的应用，Hoyer度量还可以用于：
* 量化交易： 识别出具有高度稀疏性的交易策略，这些策略往往风险较低，收益稳定。
* 生物信息学： 分析基因表达数据，找出在特定时间点表达水平显著变化的基因，这些基因可能与疾病的发生有关。