STiL:面向图像-表格任务的半监督学习框架,解决“模态信息缺口”难题

帝国理工大学提出首个面向图像-表格任务的半监督框架STiL,旨在弥合多模态学习中的“模态信息缺口”, 显著提升标注数据稀缺场景下的任务性能。

原文标题:CVPR 2025|首个面向图像-表格任务的半监督框架 STiL: 全面挖掘多模态任务相关信息

原文作者:数据派THU

冷月清谈:

本文介绍了一种名为 STiL 的新型半监督图像-表格学习框架,旨在解决多模态学习中数据标注稀缺的问题。该框架着重弥合“模态信息缺口”,即现有方法未能充分利用模态特有任务相关信息的问题。STiL 通过引入“解耦对比一致性模块”(DCC)学习跨模态共享信息的不变表示,同时保留模态特有信息。此外,STiL 还提出了“共识引导伪标签策略”(CGPL)和“原型引导标签平滑技术”(PGLS),有效提升伪标签质量,从而在未标注数据中更好地学习与任务相关的信息。实验结果表明,在自然图像和医学图像等多个数据集上,STiL 显著优于现有的多模态方法,尤其是在标注数据稀缺的情况下。

怜星夜思:

1、文章中提到的“模态信息缺口”具体指什么?它会对多模态学习带来哪些影响?在实际应用中,你认为有哪些场景会受到这个“缺口”的显著影响?
2、STiL 框架中,DCC 模块是如何实现“解耦”和“对比一致性”的?为什么这两种机制对于解决“模态信息缺口”至关重要?除了文章中提到的方法,你认为还有哪些技术可以用来实现模态解耦?
3、CGPL 策略是如何生成高质量伪标签的?你认为这种基于“共识”的伪标签生成方法有哪些优势和局限性?在什么情况下,“共识”可能会失效?

原文内容

来源:多模态机器学习与大模型
本文约4100字,建议阅读8分钟
本文提出了一个新颖的半监督图像-表格框架 STiL。


STiL: Semi-supervised Tabular-Image Learning for Comprehensive Task-Relevant Information Exploration in Multimodal Classification


作者
Siyi Du, Xinzhe Luo, Declan P. O'Regan, Chen Qin

作者单位
帝国理工大学 (Imperial College London)

论文链接
http://arxiv.org/abs/2503.06277

代码链接
https://github.com/siyi-wind/STiL


简介


多模态图像-表格学习正迅速吸引学术界的关注,尤其是在数据标注稀缺的情况下。然而,尽管已有研究通过自监督学习(SSL)尝试利用未标注数据,因其任务无关的特性,往往学到的特征并不适合特定任务。半监督学习(SemiSL)通过结合有标注和无标注数据提供了一个解决方案,但目前的多模态半监督学习方法多集中在单模态或模态共享特征的建模,忽视了模态特有的任务相关信息,从而导致“模态信息缺口”(Modality Information Gap)问题。


本文提出了一个新颖的半监督图像-表格框架 STiL,旨在全面挖掘任务相关信息,弥合这一缺口。STiL 引入了创新的“解耦对比一致性模块”(DCC),通过解耦机制学习跨模态共享信息的不变表示,同时保留模态特有信息。此外,STiL 提出了“共识引导伪标签策略”(CGPL)和“原型引导标签平滑技术”(PGLS),有效提升了伪标签的质量,从而在未标注数据中更好地学习与任务相关的信息。


在自然图像和医学图像等多个数据集上的实验表明,STiL 相较于现有的多模态方法,显著提高了任务的性能。


背景介绍


近年来,多模态深度学习通过整合来自不同模态的信息,取得了显著进展,尤其是在图像-表格联合学习方向。此类方法将图像和结构化表格数据相结合,已经在医学影像、市场营销等领域展现出巨大的潜力。例如,医学影像与表格数据(如化验结果、病史信息)结合使用,能够提高诊断的准确性,模拟临床医生在实际就诊中对患者的综合评估过程。


然而,这些方法通常依赖大量高质量的标注数据,而现实中标注数据的缺乏,尤其是在罕见疾病分类等任务中,成为了推广和应用的瓶颈。


当前,在图像-表格任务中,有些研究尝试引入自监督学习(SSL)来利用未标注数据,通过预训练提高特征表示能力 (图1 (a))。然而,SSL 依然存在两个核心问题:


  1. 任务无关性:SSL本质上是任务不可知(task-agnostic)的,仅捕捉通用表示,未必适应具体任务;

  2. 微调阶段过拟合:在标注数据极少时,模型易在微调阶段过拟合,影响泛化能力。


图1: (a)现有图像-表格模型中对未标注数据的典型使用方式;(b)“模态信息缺口”示意图:任务相关信息同时存在于模态共享特征与模态特有特征中;(c)STiL 框架:针对该缺口设计,能从有标注与无标注数据中有效提取任务相关信息。


相比之下,半监督学习(SemiSL)结合有标注与无标注数据进行任务建模,能更好地提升泛化能力。尽管如此,图像-表格任务中的多模态半监督学习尚未得到系统性研究。


现有多模态/多视角的半监督研究主要集中在两个策略:

  1. 跨模态一致性约束(Cross-Modal Consistency):假设任务相关信息主要存在于多个模态的交集中,通过引入对比学习等手段,学习模态共享的表示。

  2. 协同伪标签(Co-Pseudo-Labeling):假设单一模态即可提供足够信息,使用一个模态的预测结果来为其他模态生成伪标签,实现信息交叉传播


这些方法面临一个重要的瓶颈:模态信息缺口。如图1所示,任务相关信息不仅存在于模态共享特征中,还大量存在于模态特有的特征中。仅建模单模态或模态共享信息的策略,无法充分利用所有模态中有价值的信息,甚至可能引入伪标签偏差,从而影响模型性能。


论文贡献


  1. 提出了首个针对图像-表格任务的半监督学习框架,系统性解决了标注数据稀缺的问题。

  2. 识别并定义了多模态任务中的“模态信息缺口”问题,并提出 STiL 框架,全面挖掘任务相关信息来弥合这一缺口。

  3. 提出了三个关键创新:(1)解耦对比一致性模块(DCC),同时学习模态共享和模态特有信息;(2)共识引导伪标签生成策略(CGPL),通过分类器共识生成高质量的伪标签;(3)原型引导标签平滑技术(PGLS),利用原型嵌入优化伪标签质量。

  4. 在自然图像与医学图像等多个数据集上的实验验证表明,STiL 在标注数据稀缺的条件下,依然显著优于现有单模态/多模态,的监督/自监督/半监督先进方法。


方法


图2: STiL 的整体框架如下:模型使用编码器对图像与表格数据进行编码,通过解耦对比一致性模块(DCC)(a) 提取模态共享与模态特有信息,并通过多模态与单模态分类器进行预测。对于未标注数据,STiL 首先通过基于共识引导的伪标签策略(CGPL,(b))生成伪标签,随后结合原型相似度进行标签优化(PGLS,(c))。(d) 模型在有标注与无标注数据上的训练路径。


STiL 框架的整体结构如图2所示,主要包含三个关键组件:

  1. 解耦对比一致性模块(DCC)(图2 (a)),学习完整的模态共享与模态特有表示;

  2. 共识引导的伪标签生成策略(CGPL)(图2 (b)),从无标注数据中挖掘任务相关信息;

  3. 原型引导的标签平滑策略(PGLS)(图2 (c),进一步优化伪标签的质量。


解耦对比一致性模块(DCC)

DCC旨在在无真实标签监督的前提下,学习全面的多模态表示。为此,我们设计了两项关键机制:一是通过跨模态一致性约束,学习模态共享信息的不变表示;二是通过解耦约束,分离出每种模态的特有信息。


这一设计有助于模型更全面地理解多模态数据,有效缓解模态信息缺口的问题。此外,我们还引入了一个模态内与模态间交互模块,以进一步增强单模态和多模态表示的学习效果。


表示的解耦和一致性约束: 为实现跨模态一致性并保留模态特有信息,我们提出了两个互补的损失约束:

  1. 解耦约束:该约束通过最小化共享与特有表示之间的互信息,鼓励模型将二者有效区分。图像和表格模态的解耦损失为   和 

  2. 共享信息一致性约束:我们基于 InfoNCE 损失构建跨模态对比学习,提出跨模态一致性损失  。我们首先对共享表示   与   进行序列平均池化,分别得到   和  ,并通过两个投影头   与   映射到对比学习空间。最终,  定义如下:



 为温度系数,  表示总样本数。最终,DCC 模块的整体损失为:


图片

其中,  和   为权重系数。


模态内与模态间交互模块: 该模块旨在同时捕捉模态内部的相关性以及模态之间的互补信息。我们设计了一个专用的 Transformer 层,其中包括:(1) 基于模态特有表示的自注意力机制,用于提取模态内依赖;(2) 基于共享与特有表示之间的交叉注意力机制,用于建模模态间交互。交叉注意力定义如下:



其中: ,其中   为线性变换权重。共享表示   是将图像与表格的共享向量拼接后,经过线性映射得到的:


该 Transformer 层最终输出增强的共享表示  ,以及更新后的模态特有表示   与 


共识引导的伪标签生成策略

DCC 模块在特征层面利用无标签数据进行无监督表示学习。为了进一步从未标注数据中提取与任务相关的信息,我们在半监督学习流程中引入伪标签机制。受多智能体协作成功应用的启发——即多个模型联合决策通常比单一模型更稳健——我们提出了 CGPL 方法,该方法通过引入共识分类器协作机制来生成更可靠的伪标签,并减缓确认偏差问题。CGPL 包括两个步骤:共识协作与伪标签生成和选择性分类器更新。


共识协作与伪标签生成: 如图2(b) 所示,我们构建了一个基于多模态表示的多模态分类器  ,以及两个基于单模态表示的分类器:图像模态分类器   和表格模态分类器  。一种直接的伪标签生成方式是对所有分类器的预测结果进行平均集成。然而,受模态信息缺口影响,单模态分类器在处理复杂样本时可能缺乏完整的任务信息。


为缓解这一问题,我们提出了一种基于规则的伪标签策略,利用多模态与单模态分类器之间的一致性进行可靠伪标签生成。具体而言,我们定义了以下四种情况:


  • Case 1:三个分类器预测结果一致(完全一致);

  • Case 2i:  与   一致;

  • Case 2t:  与   一致;

  • Case 3:以上均不满足(无一致)。


每种情况下的伪标签由相应达成共识的分类器的平均集成结果生成,详细定义见表1.


表1: 伪标签生成与分类损失在不同情形下的构成方式。H( , ) 表示交叉熵函数。


选择性分类器更新: 为降低分类器“共谋”风险(即多个分类器错误地达成一致),我们设计了一种选择性更新策略,以保持分类器之间的多样性。如表1所示:


  • 对于 Case 1,更新所有分类器;

  • 对于 Case 2,仅更新与预测不一致的那个分类器;

  • 对于 Case 3,随机选择   或   进行更新。


我们将未标注数据的分类损失定义如下:



其中,  和   分别是多模态预测   和最终伪标签   经过 PGLS(详见下一节)精炼后的结果。我们仅保留最大类别概率超过阈值   的伪标签。具体的损失函数   定义详见表1。


原型引导的标签平滑(PGLS)

为了进一步提升伪标签的可靠性,我们提出了 PGLS,通过引入特征层级的标签信息来优化伪标签。与以往依赖实例级嵌入的平滑方法不同,PGLS 仅需存储类别原型即可,既更高效,又实现了更优的性能。PGLS 包含三个核心模块:类别原型提取、原型对比聚类和伪标签平滑。


类别原型提取(Class Prototype Extraction): 类别原型定义为每个类别所有样本嵌入向量的平均值。为增强在标注数据有限情境下的原型稳定性,我们引入了置信度较高的未标注样本(即满足   的样本)。多模态表示通过投影头被映射到一个低维嵌入空间: 。每一类   的原型定义为:



其中   和   分别为有标注数据和无标注数据的数量,  为伪标签预测类别。为了避免存储实例嵌入,训练过程中我们只维护每类嵌入的总和及  ,并在每个 epoch 结束时更新原型。


原型对比聚类(Prototypical Contrastive Clustering): 获取原型后,我们对有标注样本和置信度高的无标注样本引入了原型对比损失,将样本拉近其对应类的原型,同时远离其他类的原型。损失函数如下所示:



伪标签平滑(Pseudo-Label Smoothing): 过去的研究表明原型相似度(即样本与各类原型之间的相似度)在流形假设下可以用于辅助分类,我们提出基于原型相似度对伪标签进行平滑,以缓解确认偏差。原型相似度得分   的计算方式为: 。平滑后的伪标签预测为:


图片

其中   用于调节原始预测   与原型引导分布   之间的权重。


总损失函数: STiL 的总损失函数如下:


图片

其中,  为有标注数据的交叉熵损失,  和   分别控制各损失项的权重。


教师-学生框架: 为了稳定训练过程,我们借鉴过去的方法,引入教师模型用于生成伪标签与提取原型。教师模型与学生模型结构相同,但其参数通过指数滑动平均(EMA)更新: ,其中   为动量系数。在推理阶段,使用学生模型的多模态分类器输出   作为最终预测结果。


实验结果


我们使用一个医疗图像数据集 UK Biobank 和一个自然图像数据集 DVM。在 UK Biobank 上,我们进行两个心脏疾病分类任务:冠状动脉疾病(CAD)和心肌梗死(Infarction),使用 2D 短轴心脏磁共振图像和75个与疾病相关的表格特征。DVM 是一个公开可用的汽车应用数据集,包括 2D 汽车图像和与汽车相关的表格数据,在其上我们进行了一个包含 283 类的汽车模型分类任务。


表2: 与监督和自监督方法比较。


表3: 与半监督方法比较。


表4: 消融实验。


图3: 不同方法在 1% 标注的 DVM 上的绘图结果: (a)置信伪标签的准确率;(b)具有置信伪标签的未标注样本比例;(c)平滑项 q 在置信伪标签样本上的准确率;(d)平滑项 q 在全部未标注样本上的准确率。


图4: 样例分析


编辑:于腾凯

校对:李享沣



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU

DCC 模块通过解耦约束和共享信息一致性约束来达到“解耦”和“对比一致性”。解耦约束最小化共享与特有表示之间的互信息,确保两者有效区分;共享信息一致性约束则通过跨模态对比学习,学习模态共享信息的不变表示。这两种机制确保模型既能抓住共性,又能保留个性,从而更全面地理解多模态数据,缓解“模态信息缺口”。

关于模态解耦,除了互信息最小化,还可以尝试使用对抗学习,让一个判别器来判断哪些信息是共享的,哪些是特有的,从而迫使模型学习到解耦的表示。

楼上说得对!“模态信息缺口”就像木桶原理里的短板,限制了整体性能。想象一下,用图像识别菜品并结合营养成分表(表格数据)来推荐健康食谱。如果模型只关注菜品的主要特征和通用的营养信息,就可能忽略食材的特殊营养价值或烹饪方式对营养的影响,从而导致推荐的食谱不够个性化和精准。所以说,这个“缺口”在哪都需要注意。

赞同楼上的观点!CGPL 像是专家会诊,只有当多个专家意见一致时,才给出诊断结果。这种方式可以降低误诊率,但也会错过一些罕见病例。如果所有专家都缺乏对某种罕见病的认识,那么即使他们达成“共识”,结果仍然是错误的。

所以我觉得,提高“共识”的可靠性,关键在于保证参与“会诊”的专家的多样性和专业性。在模型层面,可以尝试使用不同的模型结构或训练方法来增加分类器的多样性。

从贝叶斯的角度来看,CGPL 可以理解为一种模型平均。通过对多个模型的预测结果进行平均,可以降低预测的方差,提高模型的泛化能力。但如果模型的偏差较大,模型平均可能无法有效改善性能。

我认为,在实际应用中,需要根据数据的特点和任务的需求来选择合适的伪标签生成策略。对于一些风险较高的任务(比如医疗诊断),应该更加谨慎地使用伪标签,并采取一些措施来评估伪标签的质量。

从工程角度看,DCC模块的设计思路很巧妙。解耦像是给不同模态的信息贴上标签,确保它们各司其职;而对比一致性则像是在不同模态之间建立桥梁,让它们在共享信息上达成共识。没有解耦,共享信息就会被噪音淹没;没有一致性,不同模态的信息就难以有效融合。所以说,解耦和一致性是相辅相成的。

感觉DCC模块有点像“分而治之”的思想。先把不同模态的信息分清楚,再想办法把它们整合起来。除了对抗学习,还可以考虑使用变分自编码器(VAE)的变体,通过对隐变量施加约束来实现模态解耦。例如,可以设计一个共享的隐变量和一个或多个模态特有的隐变量,从而学习到更结构化的表示。

“模态信息缺口”指的是任务相关信息不仅存在于模态共享特征中,还大量存在于模态特有的特征中。如果只建模单模态或模态共享信息,就无法充分利用所有模态中有价值的信息,甚至可能引入伪标签偏差,影响模型性能。

实际应用中,比如在医学影像诊断中,医生的经验(表格数据)可能对特定疾病有独特的判断标准,而影像数据本身也包含一些医生难以察觉的细微特征。如果模型只关注两者共有的信息,就可能忽略这些重要的特有信息,导致诊断不准确。

从学术角度来说,这个“模态信息缺口”实际上挑战了传统多模态融合的思路。以往我们可能更关注如何找到不同模态之间的共性,而忽略了它们各自的独特价值。这个研究提醒我们,在设计多模态模型时,需要更精细地考虑不同模态信息的互补性和独特性,才能真正实现更全面的信息利用。

CGPL 策略通过多个分类器(多模态和单模态)的“共识”来生成伪标签。只有当多个分类器预测结果一致或部分一致时,才会生成伪标签,从而过滤掉一些不确定的样本。这种方法可以提高伪标签的准确性,减缓确认偏差问题。

但它的局限性在于,如果多个分类器都犯了同样的错误(比如训练数据有偏差),那么“共识”就会失效,甚至会加剧错误。此外,对于一些模棱两可的样本,分类器可能难以达成共识,导致大量样本无法生成伪标签,降低了未标注数据的利用率。