多模态大模型的视觉能力受限,BLINK测试揭露其短板

原文标题:14 项任务测下来,GPT4V、Gemini等多模态大模型竟都没什么视觉感知能力?

原文作者:机器之心

冷月清谈:

**多模态大模型视觉感知能力**

本文提出了一种新的测试集BLINK,专注于评估多模态大模型的视觉感知能力,如相对视深、目标定位、多视角推理等,这些能力此前并未得到充分评估。

BLINK测试结果

结果显示,即使是最大的多模态大模型,如GPT-4V和Gemini,在BLINK测试中的表现也远低于人类水平,表明这些模型缺乏处理视觉任务的基本能力。

对图片转换和视觉提示的影响的分析

将图片转换为文本描述对解决MMBench和MMMU等基准测试中的任务很有帮助,但对BLINK测试中的任务效果不大。另一方面,视觉提示可以显著影响多模态大模型在BLINK测试中的性能。

与传统计算机视觉方法的对比

传统计算机视觉专家模型在BLINK任务上的表现优于多模态大模型,表明多模态大模型可以通过适当的数据和训练策略在这方面取得进展。

结论

BLINK测试揭示了多模态大模型在视觉感知能力方面的局限性,为未来的研究和改进方向提供了指导。




怜星夜思:


1、你觉得BLINK测试中哪项任务对多模态大模型来说最具挑战性?为什么?
2、你认为视觉提示优化在帮助多模态大模型解决BLINK任务中能发挥多大的作用?
3、BLINK测试是否可以推广到其他视觉任务领域?它有哪些局限性?




原文内容



AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]


2023-2024年,以 GPT-4V、Gemini、Claude、LLaVA 为代表的多模态大模型(Multimodal LLMs)已经在文本和图像等多模态内容处理方面表现出了空前的能力,成为技术新浪潮。

然而,对于这些模型的评测多集中于语言上的任务,对于视觉的要求多为简单的物体识别。相对的,计算机视觉最初试图解读图像作为3D场景的投影,而不仅仅处理2D平面“模式”的数组。

为响应这一情况,本文提出了BLINK,这是一个新的测试集,包含了重新构想的传统计算机视觉问题,使我们能够更全面评估多模态大模型的视觉感知能力,带你揭开GPT4V、Gemini等大模型的视觉界限秘密。

作者相信BLINK将激励社区帮助多模态LLMs达到与人类同等级别的视觉感知能力。


论文链接:https://zeyofu.github.io/blink

什么是BLINK?

BLINK 是一个针对多模态语言模型(Multimodal LLMs)的新基准测试,专注于评估其核心视觉感知能力,这些能力在其他评估中并未涉及。

BLINK包含 14 项视觉感知任务,拥有3.8k个选择题7.3k张图像

人类可以“一眨眼”之间解决这些任务 (例如,相对视深、视觉对应、目标定位,和多视角推理等);但对当前的多模态大型语言模型(Multimodal LLMs)而言,这些任务构成了重大挑战,因为它们难以通过自然语言处理来解决。

平均而言,人类在这些任务上的准确率为95.70%,然而即使是GPT-4V和Gemini也只达到了51.26%45.72%的准确率,比随机猜测仅高出13.17%7.63%。 


BLINK与其他基准测试的区别


(1)BLINK 运用了多种的视觉prompts, 如圆形、盒形, 和图像遮罩 masks, 而以前的基准测试仅包含文本问题和答案。

(2)BLINK评估了更全面的视觉感知能力,如多视角推理、深度估算和反射率估算。以往的基准测试通常更侧重于基于物体识别的视觉问答(VQA)。

(3)BLINK只包含“视觉”常识性问题,这些问题人类不需要接受教育就可以在一秒钟内回答,而以前的基准测试像MMMU这样的则需要专业领域知识。

(4)BLINK涵盖了14个需求感知的任务,这些任务受到经典计算机视觉问题的启发。虽然这些问题仅需人类“一眨眼”的时间即可解决,但它们超出了当前多模态大型语言模型的能力。

BLINK 实验结果


本文评估了17个不同大小(即7B,13B,34B)的多模态LLMs在BLINK上的表现。并观察到一个悖论:尽管这些问题对于人类来说很容易(平均准确率为95.70%),但对现有机器来说却极其困难。

7B和13B开源多模态大型语言模型(LLMs)的平均准确率大约在35-42%之间,与随机猜测(38.09%)相似。

最好的开源模型是LLaVA-v1.6-34B,达到了45.05%的准确率。

即使是最新的大模型,如GPT-4V、Gemini Pro和Claude 3 OPUS,其准确率也仅为51.26%、45.72%和44.11%。它们的表现仅比随机猜测好13.17%、7.63%和6.02%,并且比人类的表现差44.44%、49.98%和51.59%。

值得注意的是,在某些任务上,如拼图、语义对应、多视角推理、对象定位和相对反射率,一些多模态LLMs甚至表现不如随机猜测。

 
BLINK展示大模型的错误范例

对于每项任务,该文章展示了LLaVAv1.6-34B、Qwen-VL-Max、Gemini Pro、GPT-4V和人类的选择。红色选项指的是正确答案。请注意,为了视觉效果,作者故意放大了标记,并且将一些图片做成插图以节省空间。

对于智力测验,第三张图片是通过叠加第一张和第二张图片构成的。 

BLINK实验分析

(1)把图片转换成文字是否是解决多模态问题的正确选择?

为了回答这个问题,本文使用GPT-4V将图片转换为与任务无关的密集图片字幕,并使用基于文本的LLM来完成任务(Caption + LLM)。这种密集字幕利用语言描述了图像及视觉提示的详细信息(例如,每个圆圈的位置)。

作者在BLINK、MMBench和MMMU上进行了实验。令人惊讶的是,Caption + LLM的配置在MMBench和MMMU上的结果远优于BLINK。这些结果表明,图像字幕携带了回答其他基准所需的大部分视觉信息。同时,BLINK需要的高级感知能力超出了通用字幕目前可达到的范围。

(2)视觉提示(visual prompts)对多模态大模型能产生多大的影响?

本文分析了BLINK中多个任务上圆圈大小和颜色的影响。

实验表明,视觉提示可能对多模态LLM的性能产生重大影响,改进视觉提示或提高模型对提示变化的鲁棒性是未来研究的有前景的方向。根据分析,作者发现最佳圆圈大小依赖于具体任务,平均而言,10px的圆圈效果最好。同样,对于所有任务来说,红色比灰色更好。


(3)传统计算机视觉专家模型能解决BLINK任务吗?

专家可以作为多模态LLM可能达到的上限的代理。这揭示了一个可能性,即多模态LLM可能因正确的数据和培训策略而在这些任务上取得进展。 



作者简介:

府星妤 (Xingyu Fu)是宾夕法尼亚大学NLP组的博士生,师从Dan Roth教授。她曾在亚马逊和微软实习。她的研究主要专注于多模态大模型的感知和推理Reasoning。

胡雨石 (Yushi Hu)是华盛顿大学NLP组的博士生,师从Mari Ostendorf 和 Noah Smith 教授。与此同时,他还是艾伦人工智能研究所(AI2)学生研究员,此前曾在谷歌和腾讯AI 实习。他的研究主要专注于多模态大模型和基于反馈的模型训练。



机器之心「AI+智能车论坛」将于5 月 11 日在上海浦东新区举办,全日程已发布,扫码报名,锁定限量席位。
论坛特邀同济大学、上海金桥智能网联汽车发展有限公司、极越汽车、亿咖通科技、中国移动上海产业研究院、百度智能云、爱芯元智、Nullmax等重量级嘉宾,共同探讨大模型为汽车产业数字化和产品智能化升级带来的新机遇和新挑战,畅想大模型时代智能网联车产业发展的全新图景。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]


视觉提示优化是提升模型性能的关键因素。它可以为模型提供额外的信息,帮助其理解图像并消除歧义,从而提高推理的准确性。

BLINK测试的原则可以推广到其他视觉任务领域,因为它侧重于评估多模态大模型对基本视觉概念的理解,这些概念在各种视觉任务中都是至关重要的。

我押宝智力测验任务。它需要解决谜语,而谜语往往需要逻辑推理和对视觉信息的抽象理解,这对模型来说也是一大难关。

我认为是多视角推理任务,因为它需要模型理解图像的3D结构和不同视角之间的关系。现阶段的多模态大模型在处理这种复杂推理方面能力还很有限。

我选相对反射率任务。该任务需要模型估计图像中不同表面材质的反射率,这涉及到对光线相互作用和物理特性的深入理解,而这正是多模态大模型目前缺乏的。

说到底,视觉提示只是一个辅助手段,不能弥补模型本身的架构或训练上的不足。想要真正提高模型的视觉感知能力,还需要从基础算法和数据上进行持续的探索和改进。

不过,视觉提示优化也不是万能的。如果提示本身存在偏差或误导性,可能会适得其反,损害模型的性能。因此,研究者在设计视觉提示时需要谨慎,确保其清晰、无偏且有助于模型理解。

然而,BLINK测试也有一定的局限性。它主要集中于图像中的物体和场景,对更复杂的任务(如视频理解、自然语言图像生成等)的评估能力有限。另外,BLINK测试中的任务都是经过精心设计的,可能无法完全捕捉现实世界中遇到的视觉任务的全部多样性。

尽管如此,BLINK测试为评估多模态大模型的视觉感知能力提供了一个有价值的框架。它可以作为研究者和工程师们进一步探索和改进这些模型的基准和起点。