ICLR 2025解读：InterpGN如何让时序分类模型既高效又“好懂”

DatapiTHU · 2025 年7 月 28 日 09:09

ICLR 2025论文InterpGN，通过门控网络平衡时间序列分类的性能与可解释性，为关键应用提供透明且高效的解决方案。

原文标题：ICLR 2025 | 改进 Shapelet Transforms 构建可解释的时序分类门控网络

原文作者：数据派THU

原文链接： http://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247658643&idx=1&sn=5de57a92892bbec7377336bc4bdaa585&

冷月清谈：

在时间序列分类任务中，可解释模型通常性能有限，而深度学习模型又普遍缺乏透明度。ICLR 2025接收的一项新研究提出了InterpGN框架，旨在弥合这一鸿沟，实现模型性能与可解释性的优势互补。

InterpGN的核心创新在于其独特的门控函数设计。该框架引入了基于可解释专家置信度的门控机制，使得模型在可解释特性显著的样本上保持透明度，同时能自动识别并调度需要深度神经网络处理的复杂样本。这种动态分配策略有效地兼顾了效率与洞察力。

针对时间序列数据的特性，InterpGN采用了Shapelets作为其可解释专家模块。研究者进一步提出了**改进版的Shapelets Transforms算法，用于生成基于Shapelets的逻辑谓词**。通过使用径向基函数（RBF）而非传统的阈值，该方法能够将Shapelets与时间序列子序列的欧几里得距离转化为存在Shapelets的概率，显著提升了Shapelets的质量与可解释性。

在实验层面，InterpGN在多个基准数据集上展现出与前沿深度学习模型相当的性能，并且能为分类结果提供清晰的可解释性。定量评估表明，相比现有Shapelets学习方案，InterpGN在Shapelets质量和可解释性指标上均有显著提升。此外，该框架的通用性也得到了验证，可兼容多种先进网络架构，并成功应用于MIMIC-III医疗数据集和时间序列外源回归等真实世界任务中，有效突破了标准基准测试的局限。**这为医疗保健等对模型透明度要求极高的领域提供了可靠的解决方案。**

尽管InterpGN取得了显著进展，研究者也坦诚存在局限性，例如某些Shapelets可能未完全捕捉到数据本质趋势，且当前模型设计相对简单，未来可探索引入更多专家模块进行扩展。

怜星夜思：

1、文章提到InterpGN在医疗保健领域（如预测院内死亡率）有应用潜力。在医疗场景下，模型的可解释性通常被认为至关重要。你认为除了可解释性，一个AI模型在医疗诊断和决策中还需要哪些“非技术性”的考量才能真正落地和被广泛信任？
2、InterpGN改进了Shapelet Transforms，提高了Shapelets的质量和可解释性。但文章也提到，现有Shapelets仍有局限性，比如“可能并不捕捉到动作的本质趋势”。你认为在未来，除了对Shapelets本身的改进，还有哪些可能的方法或技术可以帮助我们更好地从时间序列数据中提取“人类可理解的特征”，以进一步提升模型的可解释性？
3、InterpGN采用的“混合专家（MoE）”架构，即结合可解释模型和深度神经网络，本质上是一种灵活应对复杂任务的策略。在更广泛的AI应用场景中，如何有效地设计和训练这种多模型、多目标（如性能、可解释性、鲁棒性、效率等）的混合专家系统？你认为未来AI的发展会更趋向于这种“全能型选手团队”还是“精细化专业分工”？

原文内容


        本文约3500字，建议阅读5分钟

        本文所提模型显著提升了 shapelets 质量与可解释性指标。

在时间序列分类任务中，可解释模型虽能提供额外洞见，但其性能往往被深度学习模型超越，这是因为人类可理解的特征在表达能力和灵活性上存在局限。本文介绍一篇 ICLR 2025 中接收的工作，该工作研究者提出了 InterpGN 框架，通过融合可解释模型与深度神经网络实现优势互补。该框架创新性地设计了基于可解释专家置信度的门控函数：当可解释特征显著时保持模型透明度，同时自动识别需要深度网络处理的复杂样本。针对时间序列数据特性，采用 shapelets 构建可解释专家模块，并提出改进版 Shapelets Transforms 算法来生成基于 shapelets 的逻辑谓词。

实验表明，该模型在保持与前沿深度学习相当性能的同时，能为多个基准数据集提供可解释分类器。定量评估显示，相比现有 shapelets 学习方案，本文所提模型显著提升了 shapelets 质量与可解释性指标。最后，验证了该框架可兼容先进网络架构，并能拓展应用于 MIMIC-III 医疗数据集和时间序列外源回归等现实场景任务，突破标准基准测试的局限。

【论文标题】

Shedding Light on Time Series Classification using Interpretability Gated Networks

【论文地址】

https://openreview.net/forum?id=n34taxF0TC

【论文代码】

https://github.com/YunshiWen/InterpretGatedNetwork

论文背景

时间序列分类是时间序列数据处理中的一个基本任务，根据观测变量的数量，可以分为单变量和多变量时间序列分类问题。单变量时间序列数据包括图像轮廓、声音和光谱图等，而多变量时间序列数据则包括脑电图（EEG）、心电图（ECG）和人类活动识别（HAR）等。这些类型的时间序列数据在医疗保健、神经科学和自动化等领域有着广泛的应用。近年来，深度学习模型在时间序列分类问题上得到了越来越多的应用，尽管这些模型能够取得最先进的性能，但它们通常缺乏可解释性。

在某些领域，如医疗保健和物理系统，安全性至关重要，模型的可解释性能够帮助我们验证模型的可靠性、可信度和公平性。此外，在一些复杂的任务中，通过解释机器学习模型在训练过程中发现的模式，我们可以获得关于问题的更多知识。然而，尽管可解释模型能够提供额外的见解，但它们通常在性能上不如深度模型，因为人类可理解的特征在表达能力和灵活性上存在局限性。

图1：在ECG200数据集上基于shapelet的可解释时间序列分类示例

为了解决这一问题，研究者提出了InterpGN（Interpretability Gated Networks），这是一个将可解释模型和深度神经网络相结合的框架。在这个框架中，作者引入了一种新颖的门控函数设计，该设计基于可解释专家的置信度，旨在在可解释特征显著的样本上保持可解释性，同时识别出需要额外专业知识的样本。对于可解释专家，作者采用了形状片段（shapelets）来有效建模时间序列数据的形状级特征，并引入了一种基于形状片段的变体 Shapelet Transforms，用于构建逻辑谓词。

InterpGN 的主要贡献包括：

提出了一种新颖的门控函数，根据可解释专家的置信度将样本分配给相应的专家。
提出了一种基于形状片段的 Shapelet Transforms 变体，与现有的基于 shapelet 的方法相比，提高了可解释性。
提出了用于评估可解释性和 shapelets 质量的量化指标，并证明了模型在这些指标上优于现有的 shapelets 学习方法。
在UEA多变量时间序列分类档案中的多个基准数据集上，InterpGN 的性能优于现有的最先进的方法，并且在 MIMIC-III 等真实世界任务上展示了模型的可解释性。

混合专家框架InterpGN

图2：InterpGN 框架图

01 使用 Shapelets 构建逻辑谓词

研究者提出了一种基于 shapelets 距离构建逻辑谓词的新方法。与传统的基于阈值距离的方法相比，他们引入了一种基于径向基函数（RBF）的方法，使用高斯核函数来衡量 shapelets 在时间序列中出现的可能性。这种方法通过将 shapelets 与时间序列的子序列之间的欧几里得距离转换为存在 shapelets 的概率，从而提高了 shapelets 的质量和可解释性。

图3：基于RBF的谓词（左）与基于阈值的谓词（右）所学习到的shapelet对比。

02 形状片段瓶颈模型 - 可解释专家

形状片段瓶颈模型（SBM）是 InterpGN 中的可解释专家部分。它接收由 shapelets 变换生成的逻辑谓词作为输入，并通过一个线性层来计算输出结果。

SBM 的训练是端到端可微分的，并使用基于梯度的优化方法进行训练。训练目标函数包括分类损失（softmax 交叉熵损失）、shapelets 多样性损失（用于调节冗余 shapelets 的学习）和线性分类器权重的 L1 正则化（以鼓励稀疏性，选择最有信息量的概念，并产生简单的分类器）。

03 解释

SBM 提供了两种解释方式：局部可解释性和全局可解释性。局部解释回答了为什么对某个样本进行特定分类决策的原因，例如某个样本属于某个类别是因为它包含了特定的 shapelet。全局解释则提供了关于分类问题的知识，以归纳逻辑的形式表达，例如某个类别的样本应该包含或不包含特定的 shapelet。这些解释方式使得模型的决策过程更加透明，有助于用户理解和信任模型。

04 混合专家门控

为了克服 shapelets 瓶颈在某些情况下表达能力不足的问题，研究者采用了混合专家（MoE）方法来构建部分可解释的混合模型。在 InterpGN 中，可解释专家本身作为门控网络，根据其对样本的置信度来分配工作给专家。研究者设计了一个基于可解释专家置信度的门控函数，该函数通过修改的基尼指数来衡量可解释专家输出的多样性。在训练过程中，混合模型的输出是可解释专家和 DNN 输出的混合，而在推理过程中，如果可解释专家的置信度高，则仅激活 SBM 并丢弃 DNN，以最大化样本的可解释性。

05 InterpGN的训练

InterpGN 框架的总体目标是最小化混合损失函数，该函数包括可解释专家的损失函数和混合模型的交叉熵损失。可解释专家的权重 β 可以是一个常数超参数，也可以按照余弦退火计划进行调整。这种设计确保了 SBM 在训练过程中被积极鼓励寻找有意义的 shapelet ，从而防止 InterpGN 退化为纯 DNN 模型。整个混合模型仍然是端到端可微分的，并使用基于梯度的优化方法进行训练。

实验结果

01 多变量时间序列分类

研究者在 UEA 多变量时间序列分类档案中的 30 个数据集上评估了 InterpGN 的性能，并与其他基线方法进行了比较。实验结果表明，InterpGN在平均准确率、平均排名、获得第一名和前三名的数据集数量等方面均优于基线方法。具体来说，InterpGN 在30个数据集上的平均准确率为0.760，平均排名为3.500，获得第一名的数据集数量为8个，获得前三名的数据集数量为16个。

此外，文中还展示了 SBM 在多变量时间序列数据集上学到的 shapelet 的可视化，验证了模型能够捕捉到区分性的 shapelet 特征。

表1：UEA档案库30个数据集的分类准确率对比

图4：UEA档案库UGL数据集中八种手势加速度计读数的可视化

02 预测院内死亡率

研究者使用 MIMIC-III 数据集对 InterpGN 进行了评估，以预测患者在进入重症监护病房后48小时内的院内死亡率。实验结果表明，InterpGN 在准确率、F1分数、召回率、精确度和 ROC-AUC 等指标上均优于或接近其他方法。具体来说，InterpGN 的准确率为0.703，F1分数为0.657，召回率为0.569，精确度为0.784，ROC-AUC 为0.703。

此外，研究者还提供了 SBM 对两个样本的局部解释示例，展示了模型如何根据患者的生命体征数据（如心率、平均血压和氧饱和度）中的 shapelet 来判断患者的生存情况。这些解释为临床应用提供了有价值的见解。

表2：MIMIC-III数据集院内死亡率预测结果

图:5：基于SBM的院内死亡率预测局部解释模型可视化

03 超参数对可解释性和shapelets质量的影响

研究者通过一系列的消融研究，分析了超参数对分类准确率、可解释性、shapelets 质量和可解释专家效用的影响。研究结果表明，shapelets 的数量K、损失权重 β 的调度方式、谓词类型、RBF 核函数的陡峭程度ϵ、权重正则化 λreg 和 shapelets 多样性正则化 λdiv 等因素都会对模型的性能产生不同程度的影响。

例如，增加 K 可以提高模型的表达能力和 shapelets 质量，但对可解释性的影响并不明确；使用余弦调度的 β 可以使模型在训练过程中更加关注可解释专家在样本上有用的情况，从而提高 shapelets 质量和可解释性；RBF 谓词在准确率、shapelets 质量和可解释性方面均优于线性谓词等。

04 扩展实验

研究者还进行了一些扩展实验，包括尝试不同的 DNN 专家架构（如 FCN、Transformer、PatchTST 和 TimesNet）、不同的 shapelet 距离度量（如余弦相似度和皮尔逊相关性）以及不同的 SBM 分类器架构（如双线性分类器和基于注意力的分类器）。

实验结果表明，这些变体在某些数据集上有时能够获得更好的性能，但并不具有普遍性。此外，研究者还对 SBM 学到的 shapelets 的保真度进行了评估，发现大多数数据集上的保真度都很高，表明学到的 shapelets 与预测之间存在正相关关系。最后，研究者将 InterpGN 应用于时间序列外在回归任务，并使用连续排序概率分数（CRPS）作为性能指标，初步验证了模型在回归任务上的可行性。

总结

本文提出了一种新颖的时间序列分类方法 InterpGN，该方法通过引入可解释性门控网络，在可解释性和性能之间取得了平衡。

然而，研究者认为该研究仍然存在一些局限性。首先，在某些分类规则中，某个类别的最重要 shapelet 可能并不类似于该类别的实际时间序列子序列。例如，图4（a）中的蓝色 shapelet 可能并不捕捉到 “Angle” 动作的本质趋势，但它仍然可以通过不包含其他类别的关键 shapelet 来正确分类。其次，本文研究的是一种简单的设计，其中包括一个可解释专家和一个 DNN。类似于 MoE 框架，InterpGN 可以通过引入更多专家来扩展。例如，可以使用分层门控方法包含多个可解释模型，同时使用原始 MoE 方法结合多个 DNN 模型。

编辑：王菁

欢迎大家扫码加入粉丝群

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU

Sprite72n · 2025 年7 月 29 日 06:07

引用问题：“在更广泛的AI应用场景中，如何有效地设计和训练这种多模型、多目标（如性能、可解释性、鲁棒性、效率等）的混合专家系统？你认为未来AI的发展会更趋向于这种“全能型选手团队”还是“精细化专业分工”？”

从系统设计角度看，设计和训练多目标混合专家系统需解决的关键挑战包括：门控网络的优化（如何智能、动态地分配任务）、专家模型的协同与冲突解决、以及多目标损失函数的权重平衡。这涉及到元学习、强化学习、多任务学习等高级技术。例如，可使用强化学习训练门控，使其学会在不同场景下权衡多个目标。我认为未来AI发展将是"全能型选手团队"与"精细化专业分工"的有机融合。即在顶层架构上，倾向于"团队作战"，通过异构专家组合应对复杂、多变的现实问题；但在每个"专家"内部，仍会追求"精细化专业分工"，以实现极致的单点性能和效率。这种"宏观集成、微观专注"的模式将是AI走向通用人工智能的可能路径。

——来自“AI架构师”

StarryUnicorn587 · 2025 年7 月 29 日 11:52

说白了，就是得过医生的“签字”这关。技术多牛批，如果医生觉得“看不懂”、“不靠谱”，或者操作起来还没自己手写病历快，那估计就只能在实验室里“自嗨”了。我个人觉得，除了可解释性，实用性、医患沟通友好度（怎么跟患者解释AI的建议）、以及潜在的"误诊"后的兜底机制，都比AI本身是不是“聪明绝顶”更重要。毕竟，AI只是工具，人才是最终拍板的。

——来自“医疗从业者（非技术）”

NobleStag037 · 2025 年7 月 30 日 13:22

我觉得吧，与其死磕“人类能直接看懂的特征”，不如让AI学会把它的“外语”翻译成“人话”。比如说，搞个"AI翻译官"模块，它能把AI内部的那些复杂计算，用我们习惯的图表、文字（甚至动图！）给呈现出来。Shapelets只是"局部方言"，我们更需要"智能词典"。或者，直接"反向工程"，让模型在判断后，能自己"生成"一个最能代表其判断的具象化时间序列，这样直观多了！脑洞再大点，也许可以结合VR/AR技术，直接把时间序列表现在三维空间里，我们能"走进去"观察，那理解起来肯定不一样。

——来自“极客玩家”

FrostyPenguin271 · 2025 年7 月 30 日 14:06

哈哈，这问题问得好，说白了就是AI在医院里有没有“人缘”。除了可解释性，我觉得最关键的是要让医生觉得好用、靠谱。你想，如果AI诊断得再准，医生用起来手忙脚乱，或者老觉得它在“抢饭碗”，那就肯定推不动。所以，操作界面得友好，结果得符合医生的临床经验，最好还能提供一些医生平时想不到但又很实用的新思路。再就是，万一AI出了岔子，得有清晰的纠错机制，不能把锅甩给医生，也不能让医生背锅。毕竟，生命面前无小事，信任感就是一切！

——来自“AI产品经理”

Rift205c · 2025 年7 月 31 日 10:11

要说"人类可理解"，那得看是给谁理解。我觉得可以借鉴自然语言处理的思路，搞个时间序列的“知识图谱”，把各种常见的模式、事件，以及它们之间的关系都结构化。这样模型发现了个什么特征，就能"查字典"来解释，比如"啊，这跟心跳骤停前的XX波段很像！" 除了这种硬核的关联，还可以引入"故事"，比如给模型"讲"某个时间序列是怎么发展变化的，哪个部分是关键转折点。毕竟人脑理解信息，是基于经验和叙事的。

——来自“数据科学家（实践派）”

Stellar82k · 2025 年7 月 31 日 23:29

设计这种系统，就得像给一支乐队排练一样。你有主唱（高精度模型），有吉他手（可解释模型），有鼓手（高效率模型）。首先，得有个“指挥”能把控全局，知道什么时候让哪个“乐手”发力。训练就是反复磨合，让它们配合得天衣无缝。至于未来是"全能"还是"专业"，我觉得嘛，那就像漫威宇宙，钢铁侠强不强？强！但他打灭霸还得靠复仇者联盟。AI也是，单一超强个体固然牛，但面对越来越复杂的应用场景，一个"分工明确、各有所长，又能默契配合"的AI天团，才是王道！

——来自“AI资深粉丝”

Aura25g · 2025 年8 月 1 日 15:08

引用问题：“在医疗场景下，模型的可解释性通常被认为至关重要。你认为除了可解释性，一个AI模型在医疗诊断和决策中还需要哪些“非技术性”的考量才能真正落地和被广泛信任？”

从伦理与法律角度看，AI模型在医疗中落地，除了技术性能，更需关注数据隐私、责任归属、公平性及误判风险。例如，模型的训练数据是否涵盖足够的多样性以避免对特定人群的偏见？模型决策失误后，责任由谁承担？是开发者、医院、医生还是患者？此外，患者知情同意权、医患沟通机制的建立，以及医生对AI工具的接受度与专业培训，都是绕不开的非技术性考量。这些因素共同构成了AI医疗应用的信任基石。

——来自“负责任AI研究者”

Torrent81h · 2025 年8 月 3 日 15:53

引用问题：“你认为在未来，除了对Shapelets本身的改进，还有哪些可能的方法或技术可以帮助我们更好地从时间序列数据中提取“人类可理解的特征”，以进一步提升模型的可解释性？”

从广义的可解释AI（XAI）角度来看，除了Shapelets，我们可以探索结合符号回归（Symbolic Regression）来发现时间序列中的数学公式规律、基于因果推断（Causal Inference）识别数据序列中的前后因果关系、或利用原型学习（Prototype Learning）通过具代表性的"原型"序列来解释分类。此外，将深度学习模型的中间表示通过解释技术（如LIME、SHAP for sequential data）映射回原始时间序列中的关键时间点或子序列，甚至引入专家知识图谱进行约束和引导特征提取，都是未来值得关注的方向。这些方法有望提供更高级别、更符合人类认知习惯的解释。

——来自“AI理论研究员”