FG-CLIP通过构建大规模数据集和引入细粒度负样本,显著提升了CLIP模型在细粒度图文理解方面的能力,并在多项下游任务中超越了现有模型。
原文标题:【ICML2025】FG-CLIP:细粒度视觉与文本对齐
原文作者:数据派THU
冷月清谈:
怜星夜思:
2、FG-CLIP的核心创新之一是构建了包含大量图像和边界框的高质量数据集。那么,如何保证这些边界框标注的准确性和一致性?成本很高吧?
3、FG-CLIP在多个下游任务中都取得了优于CLIP的效果,但有没有可能在某些特定场景下,原始CLIP反而表现更好?或者说FG-CLIP有什么局限性?
原文内容
来源:专知本文约1000字,建议阅读5分钟我们提出了 细粒度CLIP(FG-CLIP),通过三项关键创新提升细粒度理解能力。
对比语言-图像预训练(CLIP)在图文检索和零样本分类等多模态任务中表现出色,但由于其侧重于粗粒度的简短图文描述,在细粒度理解方面存在不足。为了解决这一问题,我们提出了 细粒度CLIP(FG-CLIP),通过三项关键创新提升细粒度理解能力。
首先,我们利用大规模多模态模型生成了 16亿条长文本描述-图像对,以捕捉全局语义细节。其次,我们构建了一个高质量数据集,包含 1200万张图像和4000万个区域级别的边界框,并与详细文本描述对齐,从而确保精确、具有上下文信息的表示。第三,我们引入了 1000万个具有挑战性的细粒度负样本,提升模型区分细微语义差异的能力。
我们构建了一个综合性数据集,命名为 FgGRN,将高质量的区域级注释与具有挑战性的细粒度负样本整合在一起,并为这些数据精心设计了相应的训练方法。
大量实验表明,FG-CLIP 在多种下游任务中均优于原始的 CLIP 和其他最新方法,包括细粒度理解、开放词汇物体检测、图文检索以及通用多模态基准测试。这些结果突显了 FG-CLIP 在捕捉细粒度图像细节和提升整体模型性能方面的有效性。数据、代码和模型已开源,地址为:https://github.com/360CVGroup/FG-CLIP。