RAGPT框架通过检索增强和动态提示调优有效解决了不完整多模态学习的难题,显著提升了模型鲁棒性。
原文标题:【AAAI2025】基于检索增强的动态提示调优在不完整多模态学习中的应用
原文作者:数据派THU
冷月清谈:
为了克服这些问题,本文提出了一种名为RAGPT的检索增强动态提示调优框架。该框架由三个模块组成:多通道检索器、缺失模态生成器和上下文感知提示生成器。
多通道检索器通过模态内检索策略识别相似实例;缺失模态生成器利用检索到的上下文恢复缺失信息;上下文感知提示生成器则从相关实例中捕获上下文知识,生成动态提示,增强模型的鲁棒性。
在多个数据集上的实验结果表明,RAGPT在处理不完整模态问题方面优于现有方法。
怜星夜思:
2、RAGPT框架中的动态提示生成机制具体是如何工作的?
3、除了多模态学习,RAGPT框架还可以应用于哪些其他领域?
原文内容
来源:专知本文约1000字,建议阅读5分钟
多模态学习中的不完整模态问题既实用又具有挑战性。
近年来,研究人员主要集中在通过应用可学习的提示,增强预训练的多模态变换器(MMTs)在缺失模态条件下的鲁棒性。然而,这些基于提示的方法面临若干限制:(1)不完整的模态仅提供有限的模态线索,难以进行特定任务的推理;(2)对缺失内容进行虚拟填充会导致信息丢失并引入噪声;(3)静态提示是与实例无关的,无法为具有不同缺失条件的实例提供足够的知识。为了解决这些问题,我们提出了一种新颖的检索增强动态提示调优框架——RAGPT。RAGPT由三个模块组成:(I)多通道检索器,通过模态内检索策略识别相似实例;(II)缺失模态生成器,利用检索到的上下文恢复缺失信息;(III)上下文感知提示生成器,从相关实例中捕获上下文知识,并生成动态提示,从而显著增强MMT的鲁棒性。在三个真实世界数据集上的大量实验表明,RAGPT在处理不完整模态问题时始终优于所有竞争基准方法。我们的工作代码以及基于提示的基准方法已在https://github.com/Jian-Lang/RAGPT发布。