低质量多模态数据的融合综述

almosthuman2014 · 2024 年5 月 8 日 00:27

原文标题：低质多模态数据融合，多家机构联合出了篇综述论文

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650917136&idx=5&sn=ee3e45e8b091783e9016b8a8ba0cbce4&

冷月清谈：

**低质量多模态数据融合综述**

随着多模态学习的兴起，融合不同模态的数据以提高模型性能已成为一项重要任务。然而，现实世界中的多模态数据往往存在噪声、缺失和不平衡等低质量问题，给多模态融合带来了挑战。

本文针对低质量多模态数据的融合问题进行了全面的综述，重点介绍了针对噪声、缺失和不平衡等低质量多模态数据的现有融合方法，并对该领域未来的发展方向进行了展望。

噪声多模态数据融合

模态相关的多模态噪声：特征级别的去噪方法（加权融合、联合变分）
跨模态语义噪声：规则过滤、模型过滤、噪声鲁棒的模型正则化

缺失多模态数据融合

基于补全的方法：模型无关补全、图或核补全、直接特征补全
无需补全的方法：利用未缺失模态信息约束表征

不平衡多模态数据融合

基于特性差异的方法：调整学习目标、优化方法、模型架构
基于质量差异的方法：修改学习目标、优化方法、模型架构、数据增强

动态多模态数据融合

启发式动态融合方法：针对性引入动态融合机制
基于注意力机制的动态融合方法：利用注意力机制的自适应性
不确定性感知的动态融合方法：依靠模态不确定性估计进行融合

本综述为多模态学习领域的研究者和从业者提供了全面、系统的指引，有助于推动低质量多模态数据融合的研究和应用。

怜星夜思：

1、对于噪声多模态数据，你觉得基于补全的方法和无需补全的方法哪个更有效？
2、你认为不确定性感知的动态融合方法有什么优势和劣势？
3、在未来，你认为多模态融合领域会朝着哪些方向发展？

原文内容

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]

多模态融合是多模态智能中的基础任务之一。

多模态融合的动机在于联合利用来自不同模态的有效信息提升下游任务的准确性和稳定性。传统的多模态融合方法往往依赖高质量数据，难以适应现实应用中的复杂低质的多模态数据。

由天津大学、中国人民大学、新加坡科技研究局、四川大学、西安电子科技大学以及哈尔滨工业大学（深圳）共同发布的低质多模态数据融合综述《Multimodal Fusion on Low-quality Data:A Comprehensive Survey》从统一视角介绍了多模态数据的融合挑战，并针对低质多模态数据的现有融合方式及该领域潜在的发展方向进行了梳理。

arXiv链接：

http://arxiv.org/abs/2404.18947

awesome-list链接：

https://github.com/QingyangZhang/awesome-low-quality-multimodal-learning

传统多模态融合模型‍‍‍

人类通过融合多个模态的信息对世界进行感知。

即使某些模态的信号不可靠时，人类也具备处理这些低质量多模态数据信号并感知环境的能力。

尽管多模态学习已取得了长足的发展，多模态机器学习模型仍缺乏有效融合真实世界中低质量多模态数据的能力。实践经验中，传统多模态融合模型的性能在以下场景下会存在显著下降：

（1）噪声多模态数据：部分模态的某些特征受噪声扰动而丢失了原有的信息。真实世界中，未知的环境因素、传感器故障、信号在传输过程中的丢失都可能引入噪声的干扰，进而损害多模态融合模型的可靠性。

（2）缺失多模态数据：由于各种现实因素，实际收集到的多模态数据样本的某些模态可能存在缺失。例如在医学领域，病人的各项生理检查结果所构成的多模态数据可能存在严重的缺失现象，某些病人可能从未做过某一项检查。

（3）不平衡多模态数据：由于模态之间的异质编码属性和信息质量差异存在不一致的现象，进而导致模态间学习不平衡问题的出现。多模态融合过程中，模型可能过度依赖某些模态，而忽视其他模态所包含的潜在有效信息。

（4）动态低质的多模态数据：由于应用环境的复杂多变，不同样本、不同时空，模态质量具有动态变化特性。低质模态数据的出现往往难以提前预知，这为多模态融合带来了挑战。

为了充分刻画低质量多模态数据的性质及处理方法，该文章对目前的低质量多模态融合领域的机器学习方法进行了总结，系统回顾了该领域的发展过程，并进一步展望了需进一步研究的问题。

图1. 低质量多模态数据分类示意图，黄色和蓝色代表两个模态，颜色越深代表质量越高

多模态融合中的去噪方法

问题定义：

噪声是导致多模态数据质量下降的最常见原因之一。

本文主要关注两类噪声：

（1）模态相关的多模态噪声。这类噪声可能是由于传感器误差（如医疗诊断中的仪器误差）、环境因素（如自动驾驶中的雨雾天气）等因素导致，噪声局限于某个特定的模态内部的某些特征层面上。

（2）语义级别的跨模态噪声。这类噪声是由模态之间高层语义的不对齐现象导致，相比于特征层的多模态噪声更难以处理。幸运的是，由于多模态数据模态之间的互补性和信息的冗余性，在多模态融合过程中，联合多个模态的信息进行去噪已被证明是行之有效的策略。

方法分类：

特征级别的多模态去噪方法高度依赖于实际任务中所涉及到的具体模态。

本文主要以多模态图像融合任务为例进行说明。在多模态图像融合中，主流的去噪方法包括加权融合及联合变分两大类。

加权融合方法考虑到特征噪声具有随机性而真实数据服从特定分布，进而通过加权求和的方式消除噪声的影响；

联合变分方法则是对传统单模态图像变分去噪的拓展，能够将去噪过程转化为优化问题的求解过程，并利用来自多个模态的互补性信息来提升去噪效果。语义级别的跨模态噪声由弱对齐或不对齐的多模态样本对导致。

例如，在联合RGB和热感图像的多模态目标检测任务中，由于传感器的差异，尽管同一个目标在两个模态中都有出现，但是其精准的位置和姿态在不同的模态中可能略有不同（弱对齐），为精准估计位置信息带来了挑战。

在社交媒体的内容理解任务中，一个样本（例如一条微博）的图像和文本模态所包含的语义信息可能相差甚远，甚至毫不相干（完全不对齐），这进一步为多模态融合带来更大的挑战。处理跨模态语义噪声的方式包括规则过滤、模型过滤、噪声鲁棒的模型正则化等方法。

未来展望：‍

尽管对数据噪声的处理早已在经典机器学习任务中得到了广泛的研究，但在多模态场景下，如何联合利用模态之间的互补性和一致性以弱化噪声的影响依然是一个亟待解决的研究问题。

此外，与传统的特征级别的去噪不同，如何在多模态大模型的预训练和推断过程中解决语义级别的噪声是有趣且极富挑战性的问题。

表1. 针对噪声的多模态融合方法分类

缺失多模态数据融合方法

问题定义：

真实场景下所收集的多模态数据往往是不完整的，由于存储设备损坏、数据传输过程的不可靠等各种因素，多模态数据时常不可避免的丢失掉部分模态的信息。

例如：在推荐系统中，用户的浏览记录和信用等级等构成了多模态的数据，然而，由于权限和隐私问题，往往无法完全收集到用户所有模态的信息来构建多模态学习系统。

在医疗诊断中，由于某些医院的设备有限、特定的检查成本较高，不同的病人的多模态诊断数据往往也是高度不完整的。

方法分类：

按照「是否需要显式的对缺失多模态数据进行补全」的分类原则，缺失多模态数据融合方法可分为：

（1）基于补全的多模态融合方法

基于补全的多模态融合方法包括模型无关的补全方法：例如直接通过对缺失模态填充0值或残余模态的均值的补全方法；

基于图或核的补全方法：这类方法不直接学习如何补全原始多模态数据，而是为每个模态构造图或核，进而学习样本对之间的相似度或关联度信息，进而对缺失数据进行补全；

直接在原始特征级别进行补全：部分方法利用生成模型，如生成对抗网络GAN及其变体直接补全缺失的特征。

（2）无需补全的多模态融合方法。

与基于补全的方法不同，无需补全的方法重点关注如何利用未缺失的模态所包含的有用信息融合出尽可能好的表征，这类方法往往对期望学习到的统一表征添加约束，使得此表征能够体现可观察到的模态数据的完整信息，以绕开补全过程进行多模态融合。

图2. 基于补全的缺失多模态数据融合方法分类

未来展望：

尽管目前国内外已提出了许多方法来解决聚类、分类等经典机器学习任务中的不完整多模态数据融合问题，但依然存在一些更深层次的挑战。

例如：关于缺失模态补全方案中的补全数据的质量评估通常被忽视。

此外，利用先验缺失数据位置信息屏蔽缺失模态的策略本身难以弥补模态缺失带来的信息鸿沟和信息不平衡问题。

表2. 针对缺失多模态数据的融合方法分类

平衡的多模态融合方法

问题定义：

在多模态学习中，通常用联合训练的方式整合不同模态数据以提高模型的整体性能和泛化表现。然而，这类广泛采用的、使用统一学习目标的联合训练范式忽略了不同模态数据的异质性。

一方面，不同模态在数据来源及形式方面的异质性，使得它们在收敛速度等方面具有不同的特点，从而使所有模态难以同时得到很好的处理和学习，给多模态联合学习带来了困难；

另一方面，这种差异也反映在单模态数据的质量上。尽管所有模态都描述了相同的概念，但它们与目标事件或目标对象相关的信息量却各不相同。基于最大似然学习目标的深度神经网络具有贪婪学习的特点，导致多模态模型往往依赖于具有高判别信息的、较易学习的高质量模态，而对其他模态信息建模不足。

为了应对这些挑战并提高多模态模型的学习质量，平衡多模态学习的相关研究最近得到了广泛关注。

方法分类：

按照平衡角度的不同，可将相关方法分为基于特性差异的方法和基于质量差异的方法。

（1）广泛使用的多模态联合训练框架往往忽视了单模态数据固有的学习属性差异，这可能会对模型的性能产生负面影响。基于特性差异的方法是从每种模态在学习特性上的差异入手，在学习目标、优化、架构方面尝试解决这一问题。

（2）最近的研究进一步发现，多模态模型往往严重依赖于某些高质量信息模态，而忽略了其他模态，导致对所有模态学习不足。基于质量差异的方法从这一角度入手，从学习目标、优化方法、模型架构和数据增强的角度尝试解决这一问题并促进多模态模型对不同模态的均衡利用。

表3. 平衡多模态数据融合方法分类

未来展望：

平衡多模态学习方法主要针对多模态数据的异质性所导致的不同模态间学习特性或数据质量上的差异。这些方法从学习目标、优化方法、模型架构和数据增强等不同角度提出了解决方案。

平衡多模态学习当前是一个蓬勃发展的领域，有很多理论和应用方向还没有得到充分探索。例如，目前的方法主要局限于典型的多模态任务，其大多是判别性任务和少数生成性任务。

除此以外，多模态大模型也需要联合具有不同质量的模态数据，也存在这种客观上的不平衡问题，据此期望在多模态大模型场景中扩展现有研究或设计新的解决方案。

动态多模态融合方法

问题定义：

动态多模态数据指的是模态的质量随输入样本、场景的不同而动态改变。例如自动驾驶场景中，系统通过RGB和红外传感器获取路面和目标信息，在光照较好的情况下，RGB摄像头由于能够捕捉目标的丰富纹理和色彩信息，可以更好地支持智能系统的决策；

然而在光照不足的夜间，红外传感器提供的感知信息则更为可靠。如何使得模型能够自动感知到不同模态质量的变化，从而进行精准和稳定的融合，是动态多模态融合方法的核心任务。

表4. 动态多模态融合方法分类

方法分类：

动态多模态融合方法可以大致分为三类：

（1）启发式动态融合方法：

启发式动态融合方法依赖算法设计者对多模态模型应用场景的理解，一般通过针对性地引入动态融合机制来实现。

例如，在RGB/热感信号协同的多模态目标检测任务中，研究者启发式地设计了光照感知模块以动态评估输入图像的光照情况，并基于光照强度动态调节RGB和热感模态的融合权重进行环境适应。当亮度较高时，主要依赖RGB模态进行决策，反之则主要依赖热感模态进行决策。

（2）基于注意力机制的动态融合方法：‍

基于注意力机制的动态融合方法主要聚焦于表示层融合。注意力机制本身就具有动态特性，因此，可以自然地用于多模态动态融合任务。

Self-attention、Spatial attention、Channel attention以及Transformer等多种机制被广泛用于多模态融合模型的构建。这类方法在任务目标的驱动下自动地学习如何进行动态融合。基于注意力机制的融合，在缺乏显式或者启发式引导情况下也能够一定程度上适应动态低质量的多模态数据。

（3）不确定性感知的动态融合方法：‍

不确定性感知的动态融合方法往往具有更加清晰、可解释的融合机制。与基于注意力机制的复杂融合模式不同，不确定性感知的动态融合方法依靠对模态的不确定性估计（如证据、能量、熵等）来适应低质量多模态数据。

具体地，不确定性感知能够用于刻画输入数据各个模态的质量变化情况。当输入样本的某个模态质量变低时，模型基于该模态决策的不确定性随之变高，为后续融合机制设计提供明确指导。此外，相比于启发式和注意力机制，不确定性感知的动态融合方法可以提供良好的理论保证。

未来展望：

尽管在传统的多模态融合任务中，不确定性感知的动态融合方法的优越性已经从实验和理论上得到了证明，但是，在SOTA的多模态模型（不限于融合模型，如CLIP/BLIP等）中，动态性的思想还具有较大挖掘和应用潜力。

此外，具有理论保证的动态融合机制往往局限于决策层面，如何使得其在表征层发挥作用也值得思考和探索。

转载请联系本公众号获得授权

投稿或寻求报道：[email protected]

Arcane69f · 2024 年5 月 8 日 20:52

感觉就像是做饭，补全的方法就像是添加了额外调味料，试图弥补味道不足；而无需补全的方法则像是展示食材本身的风味，让食材的原汁原味说话。各有千秋吧~

Glimmer58a · 2024 年5 月 9 日 07:59

就像盖房子一样，表示层的融合是打地基，不确定性感知的机制是建框架。地基不稳，框架再牢固也没用。所以，在实际应用中，还是要根据任务特点选择合适的融合方式。

Aura25g · 2024 年5 月 9 日 10:51

嘿嘿，在捕捉生活的参差美中，缺失才是最真实的。搞不好，无数的缺失造就了我们无数的可能性。从这个角度理解，又何须补全呢？

Wisp43b · 2024 年5 月 9 日 17:16

当然，少不了理论的支撑。未来在多模态融合的理论基础方面也会有更深入的研究，为实践提供坚实的理论指导。就像盖房子，地基打得牢，房子才能稳固。

PolishedStone452 · 2024 年5 月 9 日 18:12

兄弟，你说话咬文嚼字的，文绉绉的跟个老夫子似的。简单通俗点理解，补全就是填补空白，无需补全就是接受缺陷，两种方式看任务场景需求而定，没啥孰优孰劣。

WanderingWolf359 · 2024 年5 月 10 日 00:19

在医学图像分析等领域，基于补全的方法可能更有用，因为缺失的数据往往对诊断至关重要。相反，在文本分类等任务中，无需补全的方法可能更合适，因为语言的冗余性可以弥补缺失信息的损失。

ShimmeringSeal612 · 2024 年5 月 11 日 05:35

但凡事皆有度，太追求补全可能会适得其反，就像是加了太多调味料反而盖过了食材本身的味道。无需补全也不是一味地任由缺失泛滥，而是要在适当的时候保留缺失，突出差异之美。

SwiftGazelle777 · 2024 年5 月 11 日 08:38

最大的优势就是可以量化模态的可靠性，把复杂的问题简单化。但是呢，这个量化过程也要小心，别把可靠的模态也当成不靠谱的给边缘化了。

Spark21u · 2024 年5 月 11 日 16:11

优势：

提供明确、可解释的融合机制
具有良好的理论保证，可在决策层实现
劣势：
往往局限于决策层面，难以在表示层融合
对不确定性的估计可能会受到噪声和干扰的影响
在复杂的多模态场景中，不确定性感知的建模和利用可能具有挑战性

LaughingDolphin634 · 2024 年5 月 12 日 01:47

总之，多模态融合的未来充满无限可能，让我们拭目以待吧！

TwilightPeacock415 · 2024 年5 月 12 日 03:08

我还期待多模态融合与其他领域的交叉创新，比如计算机视觉和自然语言处理的结合，实现更丰富的多模态感知和理解能力。就像武侠小说中的绝世武功，融合了多种武学精髓，威力无穷。

SpringFlower865 · 2024 年5 月 12 日 06:12

我认为这取决于特定的任务和数据集。基于补全的方法可以恢复缺失的部分，但在某些情况下可能引入额外错误。而无需补全的方法则绕开了补全过程，但可能无法充分利用所有可用信息。

Spark21u · 2024 年5 月 12 日 10:00

理论保证固然重要，但实践中还是要看效果说话。如果融合后的表现不尽如人意，那再完美的理论也只是纸上谈兵。

Cipher409q · 2024 年5 月 13 日 05:09

未来的发展方向：

多模态大模型的融合：探索如何联合具有不同质量的模态数据训练多模态大模型，以解决客观上的不平衡问题
动态融合机制在表征层的应用：开发更有效的动态融合机制，使其不仅适用于决策层，还能在表征层发挥作用，增强模型对不同模态的融合能力
多模态因果关系建模：研究如何利用因果关系知识增强多模态融合的鲁棒性和可解释性
跨模态知识迁移：探索如何将不同模态上的知识和技能迁移到其他模态，提高模型的泛化能力和适应性

RubyDragon432 · 2024 年5 月 13 日 15:30

未来多模态融合必将乘风破浪，朝着更加智能、高效的方向发展。就像一辆自动驾驶汽车，能够根据不同路况和传感器信息进行动态调整，多模态融合也会变得更加自适应，根据任务需求和数据特性自动选择最优的融合策略。

GlowingStarfish420 · 2024 年5 月 14 日 01:23

不过，随着多模态大模型的兴起，无需补全的方法正在变得越来越流行，因为这些模型能够更有效地利用不同模态之间的关系，即使存在缺失的数据。

GoldenEagle888 · 2024 年5 月 14 日 03:46

你们说得头头是道，但我还是觉得不确定性感知这个概念很玄乎。它是怎么具体应用到动态融合中的？能不能举个例子？

Shadow53r · 2024 年5 月 14 日 07:22

说得对，任何方法都有其适用场景。就好比炒菜，爆炒适合急火快炒，炖菜需要文火慢煨，不能一锅烩。融合方法也要根据任务特点和数据特性来灵活选择。

Nexus38d · 2024 年5 月 14 日 09:39

不确定性感知的动态融合方法就像是一个谨慎的决策者，它会根据不同模态的可靠性来调整权重，但如果模态本身不可靠，那它的决策也会受到影响。就像玩扑克，手里拿着一把烂牌，再怎么权衡取舍也难有大作为。