VLM2-Bench：揭示视觉语言模型在基础视觉关联能力上的短板

almosthuman2014 · 2025 年3 月 14 日 15:30

VLM²-Bench 揭示 VLMs 在基础视觉关联能力上的短板，模型表现远低于人类水平，未来需增强基础视觉能力和优化训练范式。

原文标题：人类秒懂，AI却懵圈：VLM2-Bench揭示视觉语言模型「视觉关联」能力短板

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650959854&idx=2&sn=33518bc4eb440aab59f7b28e1769d2d2&

冷月清谈：

视觉语言模型（VLMs）在复杂知识推理和专业场景中取得了显著进展，但港科与 MIT 教授团队的研究表明，VLMs 在人类看来“无需思考”的本能——基础视觉线索关联能力上存在明显不足。研究团队推出了 VLM²-Bench 基准测试，用于系统评估 VLMs 在通用线索、物体线索和人物线索三个大类共9个子任务上的关联能力，涵盖多图和视频数据。实验结果表明，VLMs 在这些任务上的表现远低于人类水平，甚至不如随机猜测。研究还发现，模型过度依赖视觉线索的“连续可见性”，缺乏全局关联的动态视觉理解能力。研究团队进一步探索了以语言为中心和以视觉为中心的 prompting 方法，发现语言提示的效果受限于视觉线索的表达，而视觉提示的效果与模型的视觉基础能力密切相关。未来的研究方向包括增强模型的基础视觉能力、平衡语言推理在视觉任务中的作用，以及开发新的训练范式，着重提升模型在视觉域内的推理能力。

怜星夜思：

1、VLM²-Bench 揭示了 VLMs 在视觉关联能力上的不足，那么现实生活中，除了挑选球鞋，你觉得还有哪些场景特别依赖这种视觉关联能力？
2、研究中发现，VLMs 在关联人物线索上表现优于物体线索，这可能是因为人物有更明确的文本锚点（人名）。那么，我们是否可以通过为物体添加更具区分性的“名字”，来提升 VLMs 在物体识别上的能力？
3、文章提到，VLMs 缺乏全局关联的动态视觉理解能力，过度依赖视觉线索的“连续可见性”。你认为应该如何提升 VLMs 的这种动态视觉理解能力？

原文内容

本文来自港科与 MIT 教授团队。本文有两个共同一作：张鉴殊为武汉大学本科四年级，本篇为其在港科大访问期间完成，将于 2025 秋季前往美国西北大学攻读 CS PhD。姚栋宇目前就读于 CMU CS 系下的 MSCV 项目。

论文链接：https://arxiv.org/pdf/2502.12084
项目主页：https://vlm2-bench.github.io/

当前，视觉语言模型（VLMs）的能力边界不断被突破，但大多数评测基准仍聚焦于复杂知识推理或专业场景。本文提出全新视角：如果一项能力对人类而言是 “无需思考” 的本能，但对 AI 却是巨大挑战，它是否才是 VLMs 亟待突破的核心瓶颈？

基于此，该团队推出 VLM²-Bench 来系统探究模型在 “人类级基础视觉线索关联能力” 上的表现。

本文将如下的两点作为本工作的出发点：

什么能力对于人类来说是在日常生活中非常重要，且这种能力还得是对人们来说非常容易的，不需要庞大的知识储备也能完成。

我们在浏览不同的照片时可以找到出现在多张照片的同一个人，但是我们并不需要在之前就见过这个人，叫得出名字或者对这个人很了解，而是简单的在不同的图片间通过脸部特征在视觉上的比对和关联。同理我们还会拿着喜欢球鞋的图片去线下门店比对挑选出一样的款式（如下图），而不需要知道这个鞋的具体产品型号，只需要把鞋的花纹这一视觉特征给关联起来即可。这种视觉关联的能力显然是不依赖于先验知识，是纯粹基于视觉侧的关联。

日常生活中我们经常利用“视觉关联”，比如图中这个男孩正拿着手机上的图片去线下门店一一比对，来挑选出一样的球鞋款式（图片由AI生成）

为什么这种能力对于现在 VLMs 也是非常重要的？

随着 VLMs 从单图处理扩展到多图、视频输入，其视觉感知的广度和深度显著提升。然而，视觉内容的扩展并未带来对视觉线索关联能力的同步提升，而 VLMs 时需要具有 “回头” 关联视觉线索的能力来帮助在其更一致且和谐的理解世界。

VLM²-Bench 的设计

全面考察 VLMs 对于通用线索 GC（General Cue）、物体线索 OC（Object-centric Cue）和人物线索 PC（Person-centric Cue）三个大类的基础关联能力，总共可分为 9 个子任务，同时涵盖多图和视频的测试数据，共计 3060 个测试案例。
评测问题的形式包含了判断题、多选题、数值题、开放题，其中对于每种形式我们都设计了特定的评估方式来更好的反应模型的性能。
结合人工验证与自动化过滤，同时确保数据质量与挑战性。

以上是 VLM²-Bench 统计数据。

实验与发现

这里我们引入了蒙题（Chance-Level）和人类做答（Human-Level）的两个基准来更好的衡量 VLMs。根据表 1，可以发现 VLM²-Bench 对于人类来说几乎没有什么难度，但绝大多数模型的准确率甚至比不上乱蒙，和人类表现差距甚大。尤其是在描述视频中出现的人（VID）这一任务上，模型很容易把变化的人当作同一个来描述，把第二次出现的人当作一个新出现的人介绍。

同时我们还观察到模型在关联人物线索 PC 上的表现比物体线索 OC 更好，这个可能是因为关于人的图文数据上有提供区分度较大的不同的人名作为人物视觉线索的文本锚点，而在物体有关的数据上训练时往往都是用宽泛的类别这一作为锚点，从而模型更擅长区分不同人。

通过在通用线索 GC 这个大类中的进一步的分析，可以看到在匹配线索（Matching）这一子任务上，模型匹配两个由于替换（Swp）导致的不一致的能力较弱；而在跟踪线索（Tracking）这一子任务上，模型匹配两个由于添加或去除（A/R）时很难给出线索的变化顺序。这一发现说明模型在视觉线索关联任务中的短板存在一定的共性 —— 过度依赖于线索的 “连续可见性”，缺乏全局关联这一动态视觉理解的能力。

不仅仅局限于简单的评测，本文还探究了以语言为中心（CoT-）和以视觉为中心（VP-）的 prompting 方法能否促进模型在这种视觉关联能力。有以下的几点发现：

将语言为中心的推理（如逐步说出解决问题的过程），可以在一定程度上促进关联时的逻辑，但是前提是视觉线索适合用语言进行表达，对于抽象的视觉线索，以语言为中心的推理会因为表达的开放性从而严重影响表现。
将视觉为中心的提示（如放大关键的视觉线索），在物体线索 OC 的场景下帮助较大，而在人物线索 PC 上反倒会 “帮倒忙”。
以视觉为中心的提示带来的效果和模型的视觉基础能力呈现正相关的关系。只有在模型能够先后理解视觉提示带来的额外的辅助信息以及图中本身的信息时，视觉为中心的提示才能起到较好的效果。

未来方向

增强基础视觉能力：提升模型的核心视觉能力不仅能直接提升性能，还能增强适应性。更强的视觉基础可以最大化视觉提示的效果，并减少对先验知识的依赖，使模型在以视觉为核心的任务能够实现独立和可拓展。

平衡基于语言的推理在视觉任务中的作用：在视觉任务中引入语言推理需要谨慎调整。未来研究应明确哪些情况下语言推理可以增强视觉理解，哪些情况下会引入不必要的偏差，以确保模型合理地利用语言侧的优势。

新的训练范式：当前的训练方法主要关注视觉和语言的关联，但随着模型视觉上下文窗口的扩展，单纯在视觉域内进行推理的能力变得越来越重要。未来应优先发展能够在视觉线索之间进行结构化、组织和推理的模型。

转载请联系本公众号获得授权

投稿或寻求报道：[email protected]

Beacon26j · 2025 年3 月 15 日 04:01

我觉得不仅仅是名字的问题，更重要的是知识图谱的构建。如果能构建一个包含物体属性、用途、材质等信息的知识图谱，并将其与视觉信息结合起来，模型就能更好地理解物体之间的关系，从而提升识别能力。

Torrent81h · 2025 年3 月 16 日 14:11

可以尝试引入 Transformer 架构中的 Attention 机制，让模型在处理视频或多图输入时，能够关注到不同时间步或不同图像之间的关联性。通过学习这种全局的依赖关系，模型就能更好地理解动态视觉信息。

Pulse48v · 2025 年3 月 16 日 17:06

问题好！我觉得在医学影像诊断中，医生需要对比不同时间点的 CT 或 MRI 图像，来判断病灶的变化，这绝对是对视觉关联能力的终极考验。细微的差别可能就代表着病情的变化，甚至是生与死的差别！

Zenith52p · 2025 年3 月 16 日 23:17

你们说的都太高大上了，我来说个接地气的。平时在超市里找东西，货架上琳琅满目，我们需要快速扫视，找到目标商品。很多时候我们记住的不是商品的名字，而是包装的颜色、图案等视觉特征。这不就是一种视觉关联吗？

Gale407v · 2025 年3 月 18 日 02:33

绝对有潜力！现在很多商品都有自己的型号或者专属名称，比如“Air Max 90 经典复刻版”。如果训练数据中能更频繁地使用这些细粒度的描述，模型应该能学到更多区分物体的特征。

Celeste49f · 2025 年3 月 19 日 00:35

我觉得这个思路很有趣，不过也需要考虑成本问题。为海量物体都添加详细的“名字”，并收集相应的训练数据，这可能需要耗费巨大的人力物力。或许可以考虑一些半监督或者自监督的方法，降低标注成本。

FieryPhoenix505 · 2025 年3 月 19 日 19:05

这让我想到了文物修复！修复师需要根据残存的碎片，在大脑中“脑补”出文物原本的样子，然后寻找相似的纹路和材质进行拼接。这绝对是一种高级的“看图说话”+“找不同”！

Beacon26j · 2025 年3 月 21 日 12:50

我觉得可以借鉴人类的认知方式。人类在观察事物时，会不断进行假设和验证。我们可以训练模型也具备这种能力，比如通过生成对抗网络（GAN）来预测下一帧的图像，或者预测场景中物体的运动轨迹。通过这种方式，模型就能更好地理解场景的动态变化。

QuietKoala728 · 2025 年3 月 21 日 21:14

让我想到了游戏！很多游戏AI都需要理解场景的动态变化，并做出相应的决策。或许我们可以借鉴游戏AI的训练方法，比如强化学习，来提升 VLMs 的动态视觉理解能力。通过不断地与环境互动，模型就能更好地学习到动态视觉信息的规律。