原文标题:字节豆包、武大提出 CAL:通过视觉相关的 token 增强多模态对齐效果
原文作者:机器之心
冷月清谈:
- 无需额外的预训练阶段,可以直接嵌套到 VLM 训练过程中。
- 在 OCR 和 Caption 等基准测试上取得了显著提升,可视化结果表明 CAL 提高了图像模态对齐的质量。
- 增强了模型对噪声数据的抵抗能力。
CAL 的工作原理:
- 通过 condition contrastive 的方式,计算在有无图像输入的情况下每个文本 token 的 logit 变化量,衡量图像对 token 的影响程度。
- logit 变化量大的 token 被视为与图像高度相关,在训练中赋予更大的权重,促使模型关注这些 token,进而提升模态对齐效果。
实验结果显示,CAL 在 LLaVA 和 MGM 等不同规模的 VLM 模型上均取得了性能提升,并在抗噪性、注意力分布和图像 token 映射等方面表现出优势。
怜星夜思:
2、除了视觉相关 token,还有哪些其他因素可能影响 VLM 中的多模态对齐效果?
3、除了 CAL 方法之外,还有什么其他方法可以增强 VLM 中的多模态对齐效果?
原文内容
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
-
论文链接:https://arxiv.org/pdf/2405.17871
-
代码链接:https://github.com/foundation-multimodal-models/CAL
-
可以直接嵌套到训练过程,无需额外预训练阶段。
-
在 OCR 和 Caption benchmarks 上获得了明显的提升,从可视化中可以发现 CAL 使得图片模态对齐效果更好。
-
CAL 使得训练过程对噪声数据抵抗能力更强。
-
与图片高度相关的文本:如实体(例如人、动物、物体)、数量、颜色、文字等。这些 token 与图像信息直接对应,对多模态对齐至关重要。
-
与图片低相关度的文本:如承接词或可以通过前文推断出的内容。这些 token 实际上主要是在训练 VLM 的纯文本能力。
-
与图片内容相悖的文本:这些 token 与图像信息不一致,甚至可能提供误导信息,对多模态对齐过程产生负面影响。
-
对于训练数据中的每个图文对,在没有图片输入的情况下,每个文本 token 上的 logit 代表着 LLM 基于上下文情况和已有知识对这种情况出现的估计值。
-
如果在前面添加图片输入,相当于提供额外的上下文信息,这种情况下每个 text token 的 logit 会基于新的情况进行调整。这两种情况的 logit 变化量代表着图片这个新的条件对每个文本 token 的影响大小。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:content@jiqizhixin.com








