数据派THU报道:MINIMA提出了一种通用多模态图像匹配架构,通过合成数据实现真实场景的零样本匹配,代码模型已开源!
原文标题:CVPR 2025 MINIMA:首个通用多模态图像匹配架构(模型、数据已全部开源)
原文作者:数据派THU
冷月清谈:
怜星夜思:
2、文章提到MINIMA的数据引擎能够自动生成包含多种模态、丰富场景和精确匹配标签的大规模数据集,这个数据引擎具体是怎么实现的?能否进一步降低数据生成的成本和时间?
3、MINIMA在多个跨模态场景中表现出色,那么它在哪些特定场景下可能会遇到挑战?未来的研究方向可能是什么?
原文内容
来源:学姐带你玩AI本文约1500字,建议阅读5分钟MINIMA 的数据增强和预训练策略有效提升了模型在跨模态图像匹配任务中的泛化能力和性能表现。
论文题目:MINIMA: Modality Invariant Image Matching
论文地址:https://arxiv.org/pdf/2412.19412
代码:https://github.com/LSXI7/MINIMA
创新点
-
MINIMA通过数据扩展的方式,利用生成模型从廉价且丰富的 RGB 图像数据中生成多种模态的图像数据,从而解决了现有跨模态图像匹配数据集规模小、场景覆盖不足的问题。
-
为了支持 MINIMA 框架的训练,作者提出了一种简单而有效的数据引擎,能够自动生成包含多种模态、丰富场景和精确匹配标签的大规模数据集。
-
MINIMA 框架在训练过程中仅使用合成数据,但能够在真实场景中实现零样本跨模态匹配,并且在多个跨模态场景中表现出色,显著超过了现有的模态特定方法。这表明该框架具有强大的泛化能力和适应性。
方法
本文的主要研究方法是提出了一种名为MINIMA(Modality Invariant Image Matching)的统一图像匹配框架,旨在处理多种跨模态图像匹配任务。该方法通过数据扩展的方式,利用生成模型从廉价且丰富的RGB图像数据中生成多种模态的图像数据,从而解决了现有跨模态图像匹配数据集规模小、场景覆盖不足的问题。
不同方法在六个真实跨模态图像对数据集上的整体图像匹配准确性和效率
本图展示了多个代表性方法在六个真实跨模态图像对数据集上的平均准确率(AUC)和匹配效率(每秒匹配对数)。左侧显示了每个数据集上各方法的 AUC 值,右侧总结了不同匹配流程(稀疏、半密集和密集匹配)的平均性能。MINIMA 方法(标记为 ⋆)仅使用合成多模态数据进行训练,就能在真实跨模态场景中实现显著的性能提升,同时保持较高的匹配效率。
真实跨模态图像对的定性结果比较
本图比较了 MINIMA 方法(MINIMALG 和 MINIMARoMa)与其他方法(ReDFeat、OmniGlue 和 XoFTR)在真实跨模态图像对上的匹配结果。图中绘制了每种方法生成的匹配对,红色线条表示误差超出阈值的错误匹配。MINIMALG 和 MINIMARoMa 在稀疏和密集匹配场景下均能生成更多的正确匹配对,显示出更高的匹配精度和更强的泛化能力。
MINIMA 框架概述
本图展示了 MINIMA 框架的整体流程,包括数据引擎如何从基础 RGB 数据生成多模态图像匹配数据集,以及如何利用这些数据训练匹配模型以获得跨模态能力。数据引擎由源数据、引导数据和生成模型组成,通过这种方式可以生成丰富的多模态数据,用于训练能够处理各种跨模态匹配任务的统一模型。
实验结果
本表展示了在 MINIMA 团队构建的合成数据集上,不同图像匹配方法在多种跨模态任务中的性能表现。整体来看,表中数据表明,MINIMA 方法在多种跨模态匹配任务中普遍优于其他方法,无论是在稀疏、半密集还是密集匹配场景下,均能获得更高的匹配准确率,这说明 MINIMA 的数据增强和预训练策略有效提升了模型在跨模态图像匹配任务中的泛化能力和性能表现。
编辑:文婧