现代深度学习不确定性建模：从Masksembles到ZigZag

DatapiTHU · 2025 年5 月 23 日 06:44

这篇论文介绍了深度学习中不确定性建模的新方法，包括Masksembles、ZigZag和IT3框架，旨在提高模型在现实场景中的可靠性和鲁棒性。

原文标题：【EPFL博士论文】现代深度学习中的不确定性建模

原文作者：数据派THU

原文链接： http://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247657152&idx=3&sn=641cc7133929f902e0822f69a578ee2c&

冷月清谈：

本文总结了一篇关于现代深度学习中不确定性建模的博士论文。该论文着重解决深度学习模型在评估预测可信度方面的不足，以及由此带来的高风险问题。当前深度学习方法面临计算复杂性的挑战，尤其是在训练和推理阶段。为了降低训练成本，研究者提出了 Masksembles 方法，该方法通过训练单个模型在推理时实现集成效果，提高了计算效率并在 MC-Dropout 与深度集成方法之间实现了无缝插值。此外，论文还引入了神经网络在不确定性估计中的幂等性属性，提出了 ZigZag 方法，该方法通过训练神经网络在有无附加预测信息的情况下输出一致的结果，并以其差异度量不确定性，实现了业界领先的不确定性估计效果。在此基础上，进一步提出了幂等测试时训练（IT3）框架，旨在应对分布偏移问题。最后，论文还提出了一种针对迭代结构的不确定性估计方法，通过分析连续输出的收敛速率来量化不确定性。该方法在贝叶斯优化和分布外检测等任务中表现出色。

怜星夜思：

1、深度集成(Deep Ensembling)虽然效果好，但是计算负担大，除了文章中提到的Masksembles方法，还有没有其他降低深度集成计算成本的有效方法？
2、文章中提到的幂等性在不确定性估计中起到了什么作用？为什么训练神经网络在有无附加预测信息的情况下输出一致的结果可以度量不确定性？
3、文章提出的IT3框架，如何利用ZigZag提供的不确定性得分作为测试阶段的训练损失来提升模型性能？测试时训练(Test-Time Training)在实际应用中会遇到什么问题？

原文内容

来源：专知

        本文约1000字，建议阅读5分钟

        我们引入了神经网络在不确定性估计中的幂等性属性，并基于此提出了一种无需采样的新方法 ZigZag [DDLF24]。

在本论文中，我们聚焦于现代深度学习中的一个基本挑战：不确定性估计。尽管深度神经网络已在多个关键领域取得了显著成功——从机器人技术、大型语言模型到先进的信息检索系统——但它们在评估预测可信度方面的能力仍然有限。随着这些系统日益应用于高风险的现实场景中，这一缺口带来了重大挑战。随着机器学习的依赖性不断增强，对能够适应不确定性、具有鲁棒性与可靠性的模型的需求也随之增长。尽管不确定性估计的重要性日益凸显，但其在深度学习中的实际应用仍面临诸多挑战，包括可扩展性、效率以及适应性。

我们首先着重解决当前深度学习方法中的一个核心问题：训练和推理过程中的计算复杂性。目前深度学习中最受欢迎、鲁棒且有效的不确定性估计方法之一——深度集成（Deep Ensembling）[LPB17]——在训练和推理两个阶段都存在显著的计算负担，使其在很多应用中变得不切实际。为了解决训练阶段的复杂性问题，我们提出了 Masksembles方法，该方法仅需训练一个模型，却能在推理时实现集成效果。这一策略显著降低了训练成本，同时保持了不确定性估计的质量。Masksembles 提高了计算效率，并在 MC-Dropout [GG16] 与深度集成方法之间实现了无缝插值，融合了两者的优势。我们在一个合成人群计数的实验中验证了该方法的有效性，在该场景中，训练于合成数据的模型常常难以适应真实图像的域转移问题。通过使用 Masksembles，我们构建了一个结合标注的合成图像与未标注的真实图像的训练流程，基于不确定性引导的伪标签方法 [LDF22] 实现了强健的跨域适应能力，在保持推理开销极低的同时，超越了当前的先进方法。

此外，我们引入了神经网络在不确定性估计中的幂等性属性，并基于此提出了一种无需采样的新方法 ZigZag [DDLF24]，该方法具有效率高、通用性强的特点，并实现了业界领先的不确定性估计效果。ZigZag 通过训练神经网络在有无附加预测信息的情况下输出一致的结果，并以其差异度量不确定性。该方法在性能上可与深度集成方法媲美，但计算效率显著更高。在此基础上，我们进一步提出了 幂等测试时训练（Idempotent Test-Time Training, IT3） [DSO+24] 框架，这是一个领域无关的方法，旨在应对分布偏移问题。IT3 利用 ZigZag 提供的不确定性得分作为测试阶段的训练损失，在推理过程中将模型表示与训练分布对齐，从而提升性能。该框架适用于多种任务，且可无缝集成于任何模型架构中，包括 MLP、CNN 和 GNN，这一点是当前测试时训练方法所不具备的。

最后，我们提出了一种针对迭代结构的不确定性估计方法 [DOL+24]，通过分析连续输出的收敛速率来量化不确定性。该方法实现了当前领先的估计质量，能够有效支持贝叶斯优化，在训练分布之外的空间中进行高效探索（例如空气动力学形状优化），同时在遥感图像中的道路检测任务中实现了高效的分布外检测。

关键词：不确定性估计，概率建模，异常值鲁棒性，分布外泛化，主动学习，贝叶斯优化

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU

Ion31q · 2025 年5 月 25 日 05:11

从工程角度来说，可以考虑用分布式计算框架来并行化深度集成的训练和推理过程。把任务拆解成小块，分发到不同的机器上同时处理，最后再汇总结果。比如用TensorFlow的分布式策略或者PyTorch的torch.distributed，都能实现并行计算。当然，这需要一定的集群资源和配置能力。

Glimmer58a · 2025 年5 月 25 日 16:17

我最近在研究知识蒸馏，感觉它和Masksembles思路有点像，都是想用更少的资源达到类似集成的效果。另外，还可以考虑使用一些更高效的硬件加速，比如GPU或者TPU，也能在一定程度上缓解计算压力。从算法层面，也可以尝试一些更轻量级的集成策略，比如随机森林或者梯度提升树，虽然可能精度上不如深度集成，但是计算效率会高很多。

Nova837x · 2025 年5 月 26 日 00:32

深度集成的计算成本确实是个问题。除了Masksembles这种单模型模拟集成的方法，还可以考虑模型蒸馏。用一个更大的集成模型“教”一个小模型，让小模型也能达到接近集成的效果，但推理速度更快。另外，像一些剪枝或量化的模型压缩技术，也能在一定程度上降低集成模型中单个模型的计算量，从而变相降低整体成本。不过，具体效果还得看任务和数据。

VioletRaven051 · 2025 年5 月 27 日 19:44

幂等性在这里的关键我认为是提供了一个“参照系”。如果模型在有额外信息和没额外信息的情况下，输出的结果应该是一致（或者非常接近）的，那么就可以认为模型对当前的预测是“自信”的。如果输出结果差异很大，就说明模型对这个预测没有把握，即存在不确定性。这个差异的大小，就反映了不确定性的程度。

BlueJay945 · 2025 年5 月 28 日 12:15

我认为测试时训练最大的问题在于数据污染和过拟合。如果在测试阶段引入了错误的标签或者噪声数据，模型很容易被误导，导致性能下降。另外，如果模型过度关注测试集中的特定样本，可能会丧失对未知数据的泛化能力。因此，在实际应用中，需要谨慎控制测试时训练的学习率和迭代次数，并采取一些正则化措施来防止过拟合。

DreamyParrot272 · 2025 年5 月 29 日 02:22

从工程角度来看，测试时训练的部署也是一个挑战。它需要在推理过程中持续进行模型更新，对系统的实时性和稳定性提出了更高的要求。比如，需要考虑如何高效地管理和存储测试数据，如何保证模型更新的原子性和一致性，以及如何在资源有限的边缘设备上实现测试时训练。这些都需要精心的设计和优化。

Mystic98x · 2025 年5 月 29 日 13:09

IT3框架挺有意思的，它利用ZigZag给出的不确定性得分，将测试阶段的数据也加入到训练循环中，相当于让模型在“实战”中不断调整自己。如果ZigZag认为某个测试样本的不确定性很高，IT3就会加大对这个样本的训练力度，让模型努力去适应它，从而提高整体的泛化能力。这有点像“哪里不会学哪里”的感觉。

SparklingRiver075 · 2025 年5 月 29 日 17:15

幂等性其实是假设了一种“理想状态”，即模型已经完全掌握了数据中的固有规律，不论你给它额外的信息，它都应该能做出一样的判断。但现实是模型总有缺陷，对某些信息不够敏感或者过度敏感。当给它额外信息时，如果模型没能保持输出一致，就表明模型对这部分数据的理解还不够到位，不确定性就体现在这种不一致性上。我觉得这有点像控制变量法，通过引入变量来观察模型是否稳定。

HarvestMoon921 · 2025 年5 月 30 日 08:39

从数学角度看，幂等性可以理解为一种约束条件。通过施加这个约束，我们可以迫使模型学习到更加鲁棒的特征表示。如果模型在受到扰动（即引入额外信息）的情况下，输出仍然能够保持不变，说明模型已经学到了数据中的本质信息，而不是过度依赖于输入中的噪声。这种鲁棒性就对应于较低的不确定性。